Files
myWiki/papers/minimax-policy-regret-pomg.md

76 lines
3.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Minimax-Optimal Policy Regret in Partially Observable Markov Games"
created: 2026-06-10
updated: 2026-06-10
type: paper
tags: ["multi-agent-rl", "partial-observability", "regret-analysis", "markov-games", "theory"]
sources: ["https://arxiv.org/abs/2606.02363"]
---
# Minimax-Optimal Policy Regret in POMGs
**Author**: Raman Arora (Johns Hopkins University)
**Venue**: ICML 2026 [cs.LG, stat.ML]
## 核心问题
在实际多智能体场景中(自动驾驶、算法交易、网络安全),智能体面对的是**部分可观测**且**策略性响应**的对手。传统的 external regret 假设对手行为在反事实情况下不变——这在自适应对手面前失效。
本文在**部分可观测马尔可夫博弈**[[partially-observable-markov-game|POMG]])框架下,研究 minimax 最优策略后悔。
## 方法论贡献
### 1. 形式化与结构假设
**[[posterior-lipschitz-adversary|Posterior-Lipschitz 对手]]**:对手响应随学习者策略平滑变化,排除不连续跳跃。使用参考后验预测算子 S_ref 进行解耦。
**[[weak-revealing-condition|Weak Revealing 条件]]**:观测的信息量足够在 kappa 步窗口内识别世界动力学差异,排除观测完全无信息的退化 POMG。
### 2. [[causal-decomposition-pomg|因果分解]]
将 [[observable-operator-model|OOM]] 算子分解为两个独立组件:
- **世界通道** (W_h):转移 + 发射核
- **对手聚合** (G_h):对手响应模型
### 3. [[epoch-based-optimistic-mle|Epoch-based Optimistic MLE 算法]]
核心机制:
- 几何增长的 epochT_e = 2^e
- 每个 epoch 开始时构建 MLE 置信集
- 整个 epoch 执行单一乐观策略
- 仅 O(log T) 个不同策略被部署 → 传输成本保持 polylogarithmic
## 核心定理
**上界**:策略后悔 PR(T) <= C * H * sqrt(beta_T * d_E * T) + polylog 项
**下界**:任何算法必须承担 Omega(sqrt(d_E * T)) 策略后悔
**Minimax 最优**(匹配 sqrt(T) 和 d_E 依赖性)
其中 d_E 是 uniform [[eluder-dimension|Eluder 维度]],对 tabular/linear/low-rank 模型类有显式界。
## 扩展
- 未知时间范围的 horizon-adaptive 保证
- 无界但**几何衰减记忆**的对手([[fading-memory|Fading Memory]]
## 关键技术概念
| 概念 | 角色 |
|------|------|
| [[policy-regret|Policy Regret]] | 反事实性能度量 |
| [[eluder-dimension|Eluder Dimension]] | 函数类顺序复杂度 |
| [[observable-operator-model|OOM]] | POMG 的可处理表示 |
| [[posterior-lipschitz-adversary|Posterior-Lipschitz]] | 对手平滑性 |
| [[weak-revealing-condition|Weak Revealing]] | 观测信息量 |
| [[causal-decomposition-pomg|Causal Decomposition]] | 世界 vs 对手分离 |
## 与已有文献的关系
从单智能体 [[pomdp|POMDP]]Liu et al. 2022a扩展到博弈论设定从 bandit policy regretArora et al. 2012扩展到结构化部分可观测动力学。
## 来源
- [arXiv](https://arxiv.org/abs/2606.02363)
- [原始存档](raw/papers/arora-minimax-policy-regret-pomg-2026.md)