1.7 KiB
1.7 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| 策略后悔 (Policy Regret) | 2026-06-10 | 2026-06-10 | concept |
|
|
策略后悔 (Policy Regret)
策略后悔(Arora et al., 2012)是针对自适应对手的反事实性能度量。与 external regret 不同,它评估的是"如果学习者从一开始就承诺使用某个固定策略,对手会怎样响应"。
形式化定义
PR(T) = max_{pi*} sum_{t=1..T} [ V^{pi*}(R_inf(pi*)) - V^{pi_t}(g^t) ]
- pi*: 候选固定策略
- R_inf(pi*): 对手对 pi* 的稳态响应
- pi_t, g^t: 第 t 个 episode 的实际策略和对手响应
与 External Regret 的区别
| External Regret | Policy Regret |
|---|---|
| 假设对手行为不变 | 考虑对手反事实响应 |
| 对自适应对手失效 | 对自适应对手有效 |
| min_{pi} 固定策略与观测对手序列对比 | max_{pi*} 考虑该策略会引发的对手响应 |
为什么 External Regret 不够
在 partially-observable-markov-game 中,对手的响应 g^t 依赖于学习者的策略 pi^t。如果学习者在第 t 步选择了不同的策略,对手也会做出不同的响应。External regret 假装对手行为不变——这在战略交互中是无意义的。
关键结果
在 minimax-policy-regret-pomg 中:
- 上界:O(sqrt(T)) 策略后悔,通过 epoch-based 乐观 MLE 实现
- 下界:Omega(sqrt(T)),匹配上界
- Minimax 最优:达到信息论下界