20260617:目前有914 页
This commit is contained in:
44
concepts/adaptive-adversary.md
Normal file
44
concepts/adaptive-adversary.md
Normal file
@@ -0,0 +1,44 @@
|
||||
---
|
||||
title: "自适应对手 (Adaptive Adversary)"
|
||||
created: 2026-06-10
|
||||
updated: 2026-06-10
|
||||
type: concept
|
||||
tags: ["multi-agent-rl", "online-learning", "game-theory"]
|
||||
sources: ["[[minimax-policy-regret-pomg]]"]
|
||||
---
|
||||
|
||||
# 自适应对手 (Adaptive Adversary)
|
||||
|
||||
**自适应对手**是其行为依赖于学习者**过去策略**的对手——不同于 oblivious 对手(行为预固定、不随学习者改变)。
|
||||
|
||||
## 形式化
|
||||
|
||||
m-memory bounded 对手 R:
|
||||
|
||||
```
|
||||
g^t = R_t(pi^{t-m+1}, ..., pi^t)
|
||||
```
|
||||
|
||||
对手在第 t 步的响应仅依赖最近 m 个 episode 的学习者策略。当学习者重复固定策略 pi 时,对手收敛到稳态响应 R_inf(pi)。
|
||||
|
||||
## 为什么自适应对手难处理
|
||||
|
||||
1. **External regret 失效**:标准 regret 将对手行为视为固定序列——在自适应对手下,如果学习者选择了不同策略,对手行为也会不同
|
||||
|
||||
2. **无界记忆不可能**(Arora et al., 2012):当对手可以无限记忆时,任何算法都无法获得次线性 regret
|
||||
|
||||
3. **反事实推理**:评估策略 pi 需要知道"如果一直用 pi,对手会怎么反应"——这需要对手响应函数的模型
|
||||
|
||||
## 结构条件
|
||||
|
||||
[[minimax-policy-regret-pomg|Arora (2026)]] 引入两类条件使自适应对手可处理:
|
||||
|
||||
- **有限记忆**:m < infinity(否则 regret 不可能次线性)
|
||||
- **[[posterior-lipschitz-adversary|Posterior-Lipschitz]]**:响应平滑变化
|
||||
- **[[fading-memory|几何衰减记忆]]**:扩展——允许无限但衰减的记忆
|
||||
|
||||
## 参考
|
||||
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
|
||||
- [[policy-regret|Policy Regret]]
|
||||
- [[posterior-lipschitz-adversary|Posterior-Lipschitz Adversary]]
|
||||
- [[fading-memory|Fading Memory]]
|
||||
Reference in New Issue
Block a user