20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/adaptive-adversary.md
+++ b/concepts/adaptive-adversary.md
@@ -0,0 +1,44 @@
+---
+title: "自适应对手 (Adaptive Adversary)"
+created: 2026-06-10
+updated: 2026-06-10
+type: concept
+tags: ["multi-agent-rl", "online-learning", "game-theory"]
+sources: ["[[minimax-policy-regret-pomg]]"]
+---
+
+# 自适应对手 (Adaptive Adversary)
+
+**自适应对手**是其行为依赖于学习者**过去策略**的对手——不同于 oblivious 对手（行为预固定、不随学习者改变）。
+
+## 形式化
+
+m-memory bounded 对手 R：
+
+```
+g^t = R_t(pi^{t-m+1}, ..., pi^t)
+```
+
+对手在第 t 步的响应仅依赖最近 m 个 episode 的学习者策略。当学习者重复固定策略 pi 时，对手收敛到稳态响应 R_inf(pi)。
+
+## 为什么自适应对手难处理
+
+1. **External regret 失效**：标准 regret 将对手行为视为固定序列——在自适应对手下，如果学习者选择了不同策略，对手行为也会不同
+
+2. **无界记忆不可能**（Arora et al., 2012）：当对手可以无限记忆时，任何算法都无法获得次线性 regret
+
+3. **反事实推理**：评估策略 pi 需要知道"如果一直用 pi，对手会怎么反应"——这需要对手响应函数的模型
+
+## 结构条件
+
+[[minimax-policy-regret-pomg|Arora (2026)]] 引入两类条件使自适应对手可处理：
+
+- **有限记忆**：m < infinity（否则 regret 不可能次线性）
+- **[[posterior-lipschitz-adversary|Posterior-Lipschitz]]**：响应平滑变化
+- **[[fading-memory|几何衰减记忆]]**：扩展——允许无限但衰减的记忆
+
+## 参考
+- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
+- [[policy-regret|Policy Regret]]
+- [[posterior-lipschitz-adversary|Posterior-Lipschitz Adversary]]
+- [[fading-memory|Fading Memory]]