1.7 KiB
1.7 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 部分可观测马尔可夫博弈 (Partially Observable Markov Game, POMG) | 2026-06-10 | 2026-06-10 | concept |
|
|
部分可观测马尔可夫博弈 (POMG)
POMG 是 pomdp 的多智能体扩展,两个玩家的行为都影响状态转移,且双方仅能获得部分观测。
形式化定义
M = (S, A, B, O_A, O_B, T, E_A, E_B, r, H, rho_0)
- S: 状态空间
- A, B: 学习者/对手动作空间
- O_A, O_B: 学习者/对手观测空间
- T_h: 转移核 S x A x B -> Delta(S)
- E_h^A, E_h^B: 发射核 S -> Delta(O)
- r: 奖励函数(仅基于学习者观测)
- H: episode 长度
核心挑战
- 部分可观测性:无法直接观测潜状态,需要基于信念的推理
- 策略性对手:对手行为依赖于学习者的策略,引入反事实依赖性
- 标准 regret 失效:external regret 假设对手行为在反事实下不变——在 POMG 中不成立
结构假设
为可处理学习,需要两个关键假设:
- weak-revealing-condition:观测信息量足够识别世界动力学
- posterior-lipschitz-adversary:对手响应平滑变化
causal-decomposition-pomg
POMG 的 observable-operator-model 算子可分解为:
- 世界通道 W_h(转移 + 发射,仅依赖世界参数 theta)
- 对手聚合 G_h(对手响应,依赖 Phi)