20260617:目前有914 页
This commit is contained in:
75
papers/minimax-policy-regret-pomg.md
Normal file
75
papers/minimax-policy-regret-pomg.md
Normal file
@@ -0,0 +1,75 @@
|
||||
---
|
||||
title: "Minimax-Optimal Policy Regret in Partially Observable Markov Games"
|
||||
created: 2026-06-10
|
||||
updated: 2026-06-10
|
||||
type: paper
|
||||
tags: ["multi-agent-rl", "partial-observability", "regret-analysis", "markov-games", "theory"]
|
||||
sources: ["https://arxiv.org/abs/2606.02363"]
|
||||
---
|
||||
|
||||
# Minimax-Optimal Policy Regret in POMGs
|
||||
|
||||
**Author**: Raman Arora (Johns Hopkins University)
|
||||
**Venue**: ICML 2026 [cs.LG, stat.ML]
|
||||
|
||||
## 核心问题
|
||||
|
||||
在实际多智能体场景中(自动驾驶、算法交易、网络安全),智能体面对的是**部分可观测**且**策略性响应**的对手。传统的 external regret 假设对手行为在反事实情况下不变——这在自适应对手面前失效。
|
||||
|
||||
本文在**部分可观测马尔可夫博弈**([[partially-observable-markov-game|POMG]])框架下,研究 minimax 最优策略后悔。
|
||||
|
||||
## 方法论贡献
|
||||
|
||||
### 1. 形式化与结构假设
|
||||
|
||||
**[[posterior-lipschitz-adversary|Posterior-Lipschitz 对手]]**:对手响应随学习者策略平滑变化,排除不连续跳跃。使用参考后验预测算子 S_ref 进行解耦。
|
||||
|
||||
**[[weak-revealing-condition|Weak Revealing 条件]]**:观测的信息量足够在 kappa 步窗口内识别世界动力学差异,排除观测完全无信息的退化 POMG。
|
||||
|
||||
### 2. [[causal-decomposition-pomg|因果分解]]
|
||||
|
||||
将 [[observable-operator-model|OOM]] 算子分解为两个独立组件:
|
||||
- **世界通道** (W_h):转移 + 发射核
|
||||
- **对手聚合** (G_h):对手响应模型
|
||||
|
||||
### 3. [[epoch-based-optimistic-mle|Epoch-based Optimistic MLE 算法]]
|
||||
|
||||
核心机制:
|
||||
- 几何增长的 epoch:T_e = 2^e
|
||||
- 每个 epoch 开始时构建 MLE 置信集
|
||||
- 整个 epoch 执行单一乐观策略
|
||||
- 仅 O(log T) 个不同策略被部署 → 传输成本保持 polylogarithmic
|
||||
|
||||
## 核心定理
|
||||
|
||||
**上界**:策略后悔 PR(T) <= C * H * sqrt(beta_T * d_E * T) + polylog 项
|
||||
|
||||
**下界**:任何算法必须承担 Omega(sqrt(d_E * T)) 策略后悔
|
||||
|
||||
→ **Minimax 最优**(匹配 sqrt(T) 和 d_E 依赖性)
|
||||
|
||||
其中 d_E 是 uniform [[eluder-dimension|Eluder 维度]],对 tabular/linear/low-rank 模型类有显式界。
|
||||
|
||||
## 扩展
|
||||
|
||||
- 未知时间范围的 horizon-adaptive 保证
|
||||
- 无界但**几何衰减记忆**的对手([[fading-memory|Fading Memory]])
|
||||
|
||||
## 关键技术概念
|
||||
|
||||
| 概念 | 角色 |
|
||||
|------|------|
|
||||
| [[policy-regret|Policy Regret]] | 反事实性能度量 |
|
||||
| [[eluder-dimension|Eluder Dimension]] | 函数类顺序复杂度 |
|
||||
| [[observable-operator-model|OOM]] | POMG 的可处理表示 |
|
||||
| [[posterior-lipschitz-adversary|Posterior-Lipschitz]] | 对手平滑性 |
|
||||
| [[weak-revealing-condition|Weak Revealing]] | 观测信息量 |
|
||||
| [[causal-decomposition-pomg|Causal Decomposition]] | 世界 vs 对手分离 |
|
||||
|
||||
## 与已有文献的关系
|
||||
|
||||
从单智能体 [[pomdp|POMDP]](Liu et al. 2022a)扩展到博弈论设定,从 bandit policy regret(Arora et al. 2012)扩展到结构化部分可观测动力学。
|
||||
|
||||
## 来源
|
||||
- [arXiv](https://arxiv.org/abs/2606.02363)
|
||||
- [原始存档](raw/papers/arora-minimax-policy-regret-pomg-2026.md)
|
||||
Reference in New Issue
Block a user