Files
myWiki/concepts/policy-regret.md

47 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "策略后悔 (Policy Regret)"
created: 2026-06-10
updated: 2026-06-10
type: concept
tags: ["regret-analysis", "online-learning", "multi-agent-rl"]
sources: ["[[minimax-policy-regret-pomg]]"]
---
# 策略后悔 (Policy Regret)
**策略后悔**Arora et al., 2012是针对**自适应对手**的反事实性能度量。与 external regret 不同,它评估的是"如果学习者从一开始就承诺使用某个固定策略,对手会怎样响应"。
## 形式化定义
```
PR(T) = max_{pi*} sum_{t=1..T} [ V^{pi*}(R_inf(pi*)) - V^{pi_t}(g^t) ]
```
- pi*: 候选固定策略
- R_inf(pi*): 对手对 pi* 的稳态响应
- pi_t, g^t: 第 t 个 episode 的实际策略和对手响应
## 与 External Regret 的区别
| External Regret | Policy Regret |
|----------------|---------------|
| 假设对手行为不变 | 考虑对手反事实响应 |
| 对自适应对手失效 | 对自适应对手有效 |
| min_{pi} 固定策略与观测对手序列对比 | max_{pi*} 考虑该策略会引发的对手响应 |
## 为什么 External Regret 不够
在 [[partially-observable-markov-game|POMG]] 中,对手的响应 g^t 依赖于学习者的策略 pi^t。如果学习者在第 t 步选择了不同的策略对手也会做出不同的响应。External regret 假装对手行为不变——这在战略交互中是无意义的。
## 关键结果
在 [[minimax-policy-regret-pomg|Arora (2026)]] 中:
- **上界**O(sqrt(T)) 策略后悔,通过 epoch-based 乐观 MLE 实现
- **下界**Omega(sqrt(T)),匹配上界
- **Minimax 最优**:达到信息论下界
## 参考
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
- [[adaptive-adversary|Adaptive Adversary]]
- [[minimax-optimality|Minimax Optimality]]