SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.7 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

自适应对手 (Adaptive Adversary)

2026-06-10

2026-06-10

concept

multi-agent-rl

online-learning

game-theory

minimax-policy-regret-pomg

自适应对手 (Adaptive Adversary)

自适应对手是其行为依赖于学习者过去策略的对手——不同于 oblivious 对手（行为预固定、不随学习者改变）。

形式化

m-memory bounded 对手 R：

g^t = R_t(pi^{t-m+1}, ..., pi^t)

对手在第 t 步的响应仅依赖最近 m 个 episode 的学习者策略。当学习者重复固定策略 pi 时，对手收敛到稳态响应 R_inf(pi)。

为什么自适应对手难处理

External regret 失效：标准 regret 将对手行为视为固定序列——在自适应对手下，如果学习者选择了不同策略，对手行为也会不同
无界记忆不可能（Arora et al., 2012）：当对手可以无限记忆时，任何算法都无法获得次线性 regret
反事实推理：评估策略 pi 需要知道"如果一直用 pi，对手会怎么反应"——这需要对手响应函数的模型

结构条件

minimax-policy-regret-pomg 引入两类条件使自适应对手可处理：

有限记忆：m < infinity（否则 regret 不可能次线性）
posterior-lipschitz-adversary：响应平滑变化
fading-memory：扩展——允许无限但衰减的记忆

参考