Files
myWiki/concepts/adaptive-adversary.md

45 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "自适应对手 (Adaptive Adversary)"
created: 2026-06-10
updated: 2026-06-10
type: concept
tags: ["multi-agent-rl", "online-learning", "game-theory"]
sources: ["[[minimax-policy-regret-pomg]]"]
---
# 自适应对手 (Adaptive Adversary)
**自适应对手**是其行为依赖于学习者**过去策略**的对手——不同于 oblivious 对手(行为预固定、不随学习者改变)。
## 形式化
m-memory bounded 对手 R
```
g^t = R_t(pi^{t-m+1}, ..., pi^t)
```
对手在第 t 步的响应仅依赖最近 m 个 episode 的学习者策略。当学习者重复固定策略 pi 时,对手收敛到稳态响应 R_inf(pi)。
## 为什么自适应对手难处理
1. **External regret 失效**:标准 regret 将对手行为视为固定序列——在自适应对手下,如果学习者选择了不同策略,对手行为也会不同
2. **无界记忆不可能**Arora et al., 2012当对手可以无限记忆时任何算法都无法获得次线性 regret
3. **反事实推理**:评估策略 pi 需要知道"如果一直用 pi对手会怎么反应"——这需要对手响应函数的模型
## 结构条件
[[minimax-policy-regret-pomg|Arora (2026)]] 引入两类条件使自适应对手可处理:
- **有限记忆**m < infinity否则 regret 不可能次线性
- **[[posterior-lipschitz-adversary|Posterior-Lipschitz]]**响应平滑变化
- **[[fading-memory|几何衰减记忆]]**扩展——允许无限但衰减的记忆
## 参考
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
- [[policy-regret|Policy Regret]]
- [[posterior-lipschitz-adversary|Posterior-Lipschitz Adversary]]
- [[fading-memory|Fading Memory]]