--- title: "衰减记忆 (Fading Memory)" created: 2026-06-10 updated: 2026-06-10 type: concept tags: ["multi-agent-rl", "online-learning", "memory-models"] sources: ["[[minimax-policy-regret-pomg]]"] --- # 衰减记忆 (Fading Memory) **Fading Memory** 是 [[minimax-policy-regret-pomg|Arora (2026)]] 中对有限记忆对手的扩展——允许对手有**无限但几何衰减**的记忆。 ## 形式化 对手响应权重随 episode 距离指数衰减: ``` g^t = F(pi^t, gamma * pi^{t-1}, gamma^2 * pi^{t-2}, ...) ``` 其中 gamma in (0, 1) 是衰减因子。 ## 与有限记忆对比 | 有限记忆 | Fading Memory | |---------|---------------| | 只记住最近 m 步 | 记住所有历史但权重衰减 | | 硬截断 | 软衰减 | | O(sqrt(T * m)) | O(sqrt(T / (1-gamma))) | ## 算法扩展 Epoch-based 乐观 MLE 的 horizon-adaptive 版本可以处理 fading memory 对手:传输成本分析中,旧 epoch 的影响按 gamma^间隔 衰减,总和仍为 O(1/(1-gamma)),不破坏 sqrt(T) 速率。 ## 意义 Fading Memory 在有限记忆和完全无界记忆之间提供了一个平滑的中间地带——在实践中,大多数对手对近期行为的响应远强于对遥远过去的响应。 ## 参考 - [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]] - [[adaptive-adversary|Adaptive Adversary]] - [[policy-regret|Policy Regret]]