20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/fading-memory.md
+++ b/concepts/fading-memory.md
@@ -0,0 +1,43 @@
+---
+title: "衰减记忆 (Fading Memory)"
+created: 2026-06-10
+updated: 2026-06-10
+type: concept
+tags: ["multi-agent-rl", "online-learning", "memory-models"]
+sources: ["[[minimax-policy-regret-pomg]]"]
+---
+
+# 衰减记忆 (Fading Memory)
+
+**Fading Memory** 是 [[minimax-policy-regret-pomg|Arora (2026)]] 中对有限记忆对手的扩展——允许对手有**无限但几何衰减**的记忆。
+
+## 形式化
+
+对手响应权重随 episode 距离指数衰减：
+
+```
+g^t = F(pi^t, gamma * pi^{t-1}, gamma^2 * pi^{t-2}, ...)
+```
+
+其中 gamma in (0, 1) 是衰减因子。
+
+## 与有限记忆对比
+
+| 有限记忆 | Fading Memory |
+|---------|---------------|
+| 只记住最近 m 步 | 记住所有历史但权重衰减 |
+| 硬截断 | 软衰减 |
+| O(sqrt(T * m)) | O(sqrt(T / (1-gamma))) |
+
+## 算法扩展
+
+Epoch-based 乐观 MLE 的 horizon-adaptive 版本可以处理 fading memory 对手：传输成本分析中，旧 epoch 的影响按 gamma^间隔 衰减，总和仍为 O(1/(1-gamma))，不破坏 sqrt(T) 速率。
+
+## 意义
+
+Fading Memory 在有限记忆和完全无界记忆之间提供了一个平滑的中间地带——在实践中，大多数对手对近期行为的响应远强于对遥远过去的响应。
+
+## 参考
+- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
+- [[adaptive-adversary|Adaptive Adversary]]
+- [[policy-regret|Policy Regret]]