20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/policy-regret.md
+++ b/concepts/policy-regret.md
@@ -0,0 +1,46 @@
+---
+title: "策略后悔 (Policy Regret)"
+created: 2026-06-10
+updated: 2026-06-10
+type: concept
+tags: ["regret-analysis", "online-learning", "multi-agent-rl"]
+sources: ["[[minimax-policy-regret-pomg]]"]
+---
+
+# 策略后悔 (Policy Regret)
+
+**策略后悔**（Arora et al., 2012）是针对**自适应对手**的反事实性能度量。与 external regret 不同，它评估的是"如果学习者从一开始就承诺使用某个固定策略，对手会怎样响应"。
+
+## 形式化定义
+
+```
+PR(T) = max_{pi*} sum_{t=1..T} [ V^{pi*}(R_inf(pi*)) - V^{pi_t}(g^t) ]
+```
+
+- pi*: 候选固定策略
+- R_inf(pi*): 对手对 pi* 的稳态响应
+- pi_t, g^t: 第 t 个 episode 的实际策略和对手响应
+
+## 与 External Regret 的区别
+
+| External Regret | Policy Regret |
+|----------------|---------------|
+| 假设对手行为不变 | 考虑对手反事实响应 |
+| 对自适应对手失效 | 对自适应对手有效 |
+| min_{pi} 固定策略与观测对手序列对比 | max_{pi*} 考虑该策略会引发的对手响应 |
+
+## 为什么 External Regret 不够
+
+在 [[partially-observable-markov-game|POMG]] 中，对手的响应 g^t 依赖于学习者的策略 pi^t。如果学习者在第 t 步选择了不同的策略，对手也会做出不同的响应。External regret 假装对手行为不变——这在战略交互中是无意义的。
+
+## 关键结果
+
+在 [[minimax-policy-regret-pomg|Arora (2026)]] 中：
+- **上界**：O(sqrt(T)) 策略后悔，通过 epoch-based 乐观 MLE 实现
+- **下界**：Omega(sqrt(T))，匹配上界
+- **Minimax 最优**：达到信息论下界
+
+## 参考
+- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
+- [[adaptive-adversary|Adaptive Adversary]]
+- [[minimax-optimality|Minimax Optimality]]