3.0 KiB
3.0 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Minimax-Optimal Policy Regret in Partially Observable Markov Games | 2026-06-10 | 2026-06-10 | paper |
|
|
Minimax-Optimal Policy Regret in POMGs
Author: Raman Arora (Johns Hopkins University) Venue: ICML 2026 [cs.LG, stat.ML]
核心问题
在实际多智能体场景中(自动驾驶、算法交易、网络安全),智能体面对的是部分可观测且策略性响应的对手。传统的 external regret 假设对手行为在反事实情况下不变——这在自适应对手面前失效。
本文在部分可观测马尔可夫博弈(partially-observable-markov-game)框架下,研究 minimax 最优策略后悔。
方法论贡献
1. 形式化与结构假设
posterior-lipschitz-adversary:对手响应随学习者策略平滑变化,排除不连续跳跃。使用参考后验预测算子 S_ref 进行解耦。
weak-revealing-condition:观测的信息量足够在 kappa 步窗口内识别世界动力学差异,排除观测完全无信息的退化 POMG。
2. causal-decomposition-pomg
将 observable-operator-model 算子分解为两个独立组件:
- 世界通道 (W_h):转移 + 发射核
- 对手聚合 (G_h):对手响应模型
3. epoch-based-optimistic-mle
核心机制:
- 几何增长的 epoch:T_e = 2^e
- 每个 epoch 开始时构建 MLE 置信集
- 整个 epoch 执行单一乐观策略
- 仅 O(log T) 个不同策略被部署 → 传输成本保持 polylogarithmic
核心定理
上界:策略后悔 PR(T) <= C * H * sqrt(beta_T * d_E * T) + polylog 项
下界:任何算法必须承担 Omega(sqrt(d_E * T)) 策略后悔
→ Minimax 最优(匹配 sqrt(T) 和 d_E 依赖性)
其中 d_E 是 uniform eluder-dimension,对 tabular/linear/low-rank 模型类有显式界。
扩展
- 未知时间范围的 horizon-adaptive 保证
- 无界但几何衰减记忆的对手(fading-memory)
关键技术概念
| 概念 | 角色 |
|---|---|
| [[policy-regret | Policy Regret]] |
| [[eluder-dimension | Eluder Dimension]] |
| [[observable-operator-model | OOM]] |
| [[posterior-lipschitz-adversary | Posterior-Lipschitz]] |
| [[weak-revealing-condition | Weak Revealing]] |
| [[causal-decomposition-pomg | Causal Decomposition]] |
与已有文献的关系
从单智能体 pomdp(Liu et al. 2022a)扩展到博弈论设定,从 bandit policy regret(Arora et al. 2012)扩展到结构化部分可观测动力学。