SidneyZhang/myWiki

Fork 0

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

2.5 KiB

Raw Blame History

title, created, type, paper

title	created	type	paper
Review: Minimax-Optimal Policy Regret in POMGs	2026-06-10	review	minimax-policy-regret-pomg

Review: Minimax-Optimal Policy Regret in POMGs

📌 基本信息

论文：Minimax-Optimal Policy Regret in Partially Observable Markov Games
作者：Raman Arora (Johns Hopkins University)
领域：多智能体 RL 理论 × 在线学习 × 部分可观测性
发表：ICML 2026 [cs.LG, stat.ML]
添加时间：2026-06-10

🎯 核心贡献

POMG 的完整理论处理 — 首次在部分可观测马尔可夫博弈中建立策略后悔的 minimax 最优界
因果分解 — 将 OOM 算子分解为世界通道 W_h 和对手聚合 G_h，使世界估计和对手控制可独立处理
Epoch-based 乐观 MLE — 几何增长 epoch + 累积置信集 + 乐观策略选择；仅 O(log T) 次策略切换 → 传输成本 polylog
匹配上下界 — O(sqrt(d_E * T)) 上界 vs Omega(sqrt(d_E * T)) 下界 → 在 sqrt(T) 和 Eluder 维度依赖性上均为 minimax 最优

🔗 概念网络

POMG ←→ Policy Regret ←→ Adaptive Adversary
  ↓          ↓                  ↓
POMDP    Minimax Optimality  Posterior-Lipschitz
  ↓                           ↓
OOM → Causal Decomposition  Fading Memory
  ↓          ↓
Eluder Dimension ← Weak Revealing
  ↓
Epoch-based Optimistic MLE

核心链：partially-observable-markov-game → policy-regret → minimax-optimality
方法链：observable-operator-model → causal-decomposition-pomg → epoch-based-optimistic-mle
结构条件：posterior-lipschitz-adversary + weak-revealing-condition

📊 Wiki 集成

新增页面：13 个（1 论文 + 12 概念）
链接完整性：100% 无断链
总规模：695 → 708 页

💡 关键洞察

论文的理论优雅性在于因果分解这一结构洞察——将纠缠的世界动力学和对手响应干净地分离为两个独立可处理的组件。这一分解使得 POMG 的学习复杂性成为世界复杂度（d_Theta）和对手复杂度（d_Psi）的简单加和，且两者均被 eluder-dimension统一量化。

从实用角度看，几何增长 epoch 的策略切换成本控制（仅 O(log T) 次切换）是一个极具工程价值的技巧——在 regret 分析和实际部署中，策略切换的代价都是不可忽略的。

2.5 KiB Raw Blame History Unescape Escape

Review: Minimax-Optimal Policy Regret in POMGs

2.5 KiB

Raw Blame History