SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.7 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

部分可观测马尔可夫博弈 (Partially Observable Markov Game, POMG)

2026-06-10

2026-06-10

concept

multi-agent-rl

partial-observability

game-theory

markov-games

minimax-policy-regret-pomg

部分可观测马尔可夫博弈 (POMG)

POMG 是 pomdp 的多智能体扩展，两个玩家的行为都影响状态转移，且双方仅能获得部分观测。

形式化定义

M = (S, A, B, O_A, O_B, T, E_A, E_B, r, H, rho_0)

S: 状态空间
A, B: 学习者/对手动作空间
O_A, O_B: 学习者/对手观测空间
T_h: 转移核 S x A x B -> Delta(S)
E_h^A, E_h^B: 发射核 S -> Delta(O)
r: 奖励函数（仅基于学习者观测）
H: episode 长度

核心挑战

部分可观测性：无法直接观测潜状态，需要基于信念的推理
策略性对手：对手行为依赖于学习者的策略，引入反事实依赖性
标准 regret 失效：external regret 假设对手行为在反事实下不变——在 POMG 中不成立

结构假设

为可处理学习，需要两个关键假设：

weak-revealing-condition：观测信息量足够识别世界动力学
posterior-lipschitz-adversary：对手响应平滑变化

causal-decomposition-pomg

POMG 的 observable-operator-model 算子可分解为：

世界通道 W_h（转移 + 发射，仅依赖世界参数 theta）
对手聚合 G_h（对手响应，依赖 Phi）

参考