SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.7 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

策略后悔 (Policy Regret)

2026-06-10

2026-06-10

concept

regret-analysis

online-learning

multi-agent-rl

minimax-policy-regret-pomg

策略后悔 (Policy Regret)

策略后悔（Arora et al., 2012）是针对自适应对手的反事实性能度量。与 external regret 不同，它评估的是"如果学习者从一开始就承诺使用某个固定策略，对手会怎样响应"。

形式化定义

PR(T) = max_{pi*} sum_{t=1..T} [ V^{pi*}(R_inf(pi*)) - V^{pi_t}(g^t) ]

pi*: 候选固定策略
R_inf(pi*): 对手对 pi* 的稳态响应
pi_t, g^t: 第 t 个 episode 的实际策略和对手响应

与 External Regret 的区别

External Regret	Policy Regret
假设对手行为不变	考虑对手反事实响应
对自适应对手失效	对自适应对手有效
min_{pi} 固定策略与观测对手序列对比	max_{pi*} 考虑该策略会引发的对手响应

为什么 External Regret 不够

在 partially-observable-markov-game 中，对手的响应 g^t 依赖于学习者的策略 pi^t。如果学习者在第 t 步选择了不同的策略，对手也会做出不同的响应。External regret 假装对手行为不变——这在战略交互中是无意义的。

关键结果

在 minimax-policy-regret-pomg 中：

上界：O(sqrt(T)) 策略后悔，通过 epoch-based 乐观 MLE 实现
下界：Omega(sqrt(T))，匹配上界
Minimax 最优：达到信息论下界

参考