SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.4 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

衰减记忆 (Fading Memory)

2026-06-10

2026-06-10

concept

multi-agent-rl

online-learning

memory-models

minimax-policy-regret-pomg

衰减记忆 (Fading Memory)

Fading Memory 是 minimax-policy-regret-pomg 中对有限记忆对手的扩展——允许对手有无限但几何衰减的记忆。

形式化

对手响应权重随 episode 距离指数衰减：

g^t = F(pi^t, gamma * pi^{t-1}, gamma^2 * pi^{t-2}, ...)

其中 gamma in (0, 1) 是衰减因子。

与有限记忆对比

有限记忆	Fading Memory
只记住最近 m 步	记住所有历史但权重衰减
硬截断	软衰减
O(sqrt(T * m))	O(sqrt(T / (1-gamma)))

算法扩展

Epoch-based 乐观 MLE 的 horizon-adaptive 版本可以处理 fading memory 对手：传输成本分析中，旧 epoch 的影响按 gamma^间隔衰减，总和仍为 O(1/(1-gamma))，不破坏 sqrt(T) 速率。

意义

Fading Memory 在有限记忆和完全无界记忆之间提供了一个平滑的中间地带——在实践中，大多数对手对近期行为的响应远强于对遥远过去的响应。

参考