Minimax-Optimal Policy Regret in POMGs

Author: Raman Arora (Johns Hopkins University) Venue: ICML 2026 [cs.LG, stat.ML]

核心问题

在实际多智能体场景中（自动驾驶、算法交易、网络安全），智能体面对的是部分可观测且策略性响应的对手。传统的 external regret 假设对手行为在反事实情况下不变——这在自适应对手面前失效。

本文在部分可观测马尔可夫博弈（partially-observable-markov-game）框架下，研究 minimax 最优策略后悔。

posterior-lipschitz-adversary：对手响应随学习者策略平滑变化，排除不连续跳跃。使用参考后验预测算子 S_ref 进行解耦。

weak-revealing-condition：观测的信息量足够在 kappa 步窗口内识别世界动力学差异，排除观测完全无信息的退化 POMG。

将 observable-operator-model 算子分解为两个独立组件：

核心机制：

上界：策略后悔 PR(T) <= C * H * sqrt(beta_T * d_E * T) + polylog 项

下界：任何算法必须承担 Omega(sqrt(d_E * T)) 策略后悔

→ Minimax 最优（匹配 sqrt(T) 和 d_E 依赖性）

其中 d_E 是 uniform eluder-dimension，对 tabular/linear/low-rank 模型类有显式界。

概念	角色
[[policy-regret	Policy Regret]]
[[eluder-dimension	Eluder Dimension]]
[[observable-operator-model	OOM]]
[[posterior-lipschitz-adversary	Posterior-Lipschitz]]
[[weak-revealing-condition	Weak Revealing]]
[[causal-decomposition-pomg	Causal Decomposition]]

从单智能体 pomdp（Liu et al. 2022a）扩展到博弈论设定，从 bandit policy regret（Arora et al. 2012）扩展到结构化部分可观测动力学。