Files
myWiki/concepts/partially-observable-markov-game.md

1.7 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
部分可观测马尔可夫博弈 (Partially Observable Markov Game, POMG) 2026-06-10 2026-06-10 concept
multi-agent-rl
partial-observability
game-theory
markov-games
minimax-policy-regret-pomg

部分可观测马尔可夫博弈 (POMG)

POMGpomdp 的多智能体扩展,两个玩家的行为都影响状态转移,且双方仅能获得部分观测。

形式化定义

M = (S, A, B, O_A, O_B, T, E_A, E_B, r, H, rho_0)

  • S: 状态空间
  • A, B: 学习者/对手动作空间
  • O_A, O_B: 学习者/对手观测空间
  • T_h: 转移核 S x A x B -> Delta(S)
  • E_h^A, E_h^B: 发射核 S -> Delta(O)
  • r: 奖励函数(仅基于学习者观测)
  • H: episode 长度

核心挑战

  1. 部分可观测性:无法直接观测潜状态,需要基于信念的推理
  2. 策略性对手:对手行为依赖于学习者的策略,引入反事实依赖性
  3. 标准 regret 失效external regret 假设对手行为在反事实下不变——在 POMG 中不成立

结构假设

为可处理学习,需要两个关键假设:

causal-decomposition-pomg

POMG 的 observable-operator-model 算子可分解为:

  • 世界通道 W_h转移 + 发射,仅依赖世界参数 theta
  • 对手聚合 G_h对手响应依赖 Phi

参考