1.7 KiB
1.7 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| 自适应对手 (Adaptive Adversary) | 2026-06-10 | 2026-06-10 | concept |
|
|
自适应对手 (Adaptive Adversary)
自适应对手是其行为依赖于学习者过去策略的对手——不同于 oblivious 对手(行为预固定、不随学习者改变)。
形式化
m-memory bounded 对手 R:
g^t = R_t(pi^{t-m+1}, ..., pi^t)
对手在第 t 步的响应仅依赖最近 m 个 episode 的学习者策略。当学习者重复固定策略 pi 时,对手收敛到稳态响应 R_inf(pi)。
为什么自适应对手难处理
-
External regret 失效:标准 regret 将对手行为视为固定序列——在自适应对手下,如果学习者选择了不同策略,对手行为也会不同
-
无界记忆不可能(Arora et al., 2012):当对手可以无限记忆时,任何算法都无法获得次线性 regret
-
反事实推理:评估策略 pi 需要知道"如果一直用 pi,对手会怎么反应"——这需要对手响应函数的模型
结构条件
minimax-policy-regret-pomg 引入两类条件使自适应对手可处理:
- 有限记忆:m < infinity(否则 regret 不可能次线性)
- posterior-lipschitz-adversary:响应平滑变化
- fading-memory:扩展——允许无限但衰减的记忆