myWiki/concepts/partially-observable-markov-game.md

---
title: "部分可观测马尔可夫博弈 (Partially Observable Markov Game, POMG)"
created: 2026-06-10
updated: 2026-06-10
type: concept
tags: ["multi-agent-rl", "partial-observability", "game-theory", "markov-games"]
sources: ["[[minimax-policy-regret-pomg]]"]
---

# 部分可观测马尔可夫博弈 (POMG)

**POMG** 是 [[pomdp|POMDP]] 的多智能体扩展，两个玩家的行为都影响状态转移，且双方仅能获得部分观测。

## 形式化定义

M = (S, A, B, O_A, O_B, T, E_A, E_B, r, H, rho_0)

- S: 状态空间
- A, B: 学习者/对手动作空间
- O_A, O_B: 学习者/对手观测空间
- T_h: 转移核 S x A x B -> Delta(S)
- E_h^A, E_h^B: 发射核 S -> Delta(O)
- r: 奖励函数（仅基于学习者观测）
- H: episode 长度

## 核心挑战

1. **部分可观测性**：无法直接观测潜状态，需要基于信念的推理
2. **策略性对手**：对手行为依赖于学习者的策略，引入反事实依赖性
3. **标准 regret 失效**：external regret 假设对手行为在反事实下不变——在 POMG 中不成立

## 结构假设

为可处理学习，需要两个关键假设：

- [[weak-revealing-condition|Weak Revealing]]：观测信息量足够识别世界动力学
- [[posterior-lipschitz-adversary|Posterior-Lipschitz 对手]]：对手响应平滑变化

## [[causal-decomposition-pomg|因果分解]]

POMG 的 [[observable-operator-model|OOM]] 算子可分解为：
- 世界通道 W_h（转移 + 发射，仅依赖世界参数 theta）
- 对手聚合 G_h（对手响应，依赖 Phi）

## 参考
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
- [[pomdp|POMDP]]
- [[policy-regret|Policy Regret]]