--- title: "Memory Caching: RNNs with Growing Memory" created: 2026-04-19 updated: 2026-04-19 type: paper tags: [llm, architecture, deep-learning] sources: [raw/papers/behrouz-memory-caching-rnn-2026.md] --- # Memory Caching: RNNs with Growing Memory **arXiv:** 2602.24281 [cs.LG] · 2026-02-27 **作者:** [[behrouz-memory-caching-rnn]], Zeman Li, Yuan Deng, Peilin Zhong, [[behrouz-memory-caching-rnn]], [[behrouz-memory-caching-rnn]] ## 核心贡献 提出 **Memory Caching (MC)** 技术,通过缓存 RNN 隐藏状态的检查点,使 RNN 的有效记忆容量随序列长度增长。这一技术在 RNN 的固定记忆 $O(L)$ 和 Transformer 的增长记忆 $O(L^2)$ 之间提供了一个灵活的插值权衡。 ## 关键发现 - RNN 在回忆密集型任务中表现不佳的原因通常归因于**固定大小的记忆** - MC 通过缓存隐藏状态的检查点,允许 RNN 有效记忆容量增长 - 提出四种 MC 变体:包括门控聚合和稀疏选择机制 - 适用于线性和深层记忆模块 - 实验结果:MC 提升了 RNN 在语言建模和长上下文理解任务上的性能 - 在上下文回忆任务中,MC 变体表现接近 Transformer,优于当前最优 RNN 模型 ## 复杂度分析 | 模型类型 | 记忆复杂度 | 记忆特性 | |----------|-----------|----------| | 传统 RNN | $O(L)$ | 固定大小记忆 | | Transformer | $O(L^2)$ | 随上下文增长 | | MC-RNN | $O(L)$ ~ $O(L^2)$ | 可调节的灵活插值 | ## 相关概念 - [[memory-caching-rnn]] — Memory Caching 技术详解 - [[subquadratic-transformer-alternatives]] — Transformer 的次二次替代方案 ## 来源 - arXiv: https://arxiv.org/abs/2602.24281