--- title: "Memory Caching (MC)" created: 2026-04-19 updated: 2026-04-19 type: concept tags: [architecture, deep-learning, llm] sources: [raw/papers/behrouz-memory-caching-rnn-2026.md] --- # Memory Caching (MC) **提出者:** Behrouz et al. (2026) · arXiv:2602.24281 ## 定义 Memory Caching 是一种增强循环神经网络(RNN)的技术,通过缓存其隐藏状态的检查点(checkpoints),使 RNN 的有效记忆容量能够随序列长度动态增长。 ## 动机 Transformer 成为序列建模范式的主要原因是其**记忆容量随上下文长度增长**的特性,这使得检索任务表现优异。然而,这也带来了 $O(L^2)$ 的二次复杂度。近年来研究者探索了次二次复杂度的 RNN 替代方案,但 RNN 在回忆密集型任务中表现不佳,通常归因于其**固定大小的记忆**限制。 ## 技术原理 MC 的核心思想:在 RNN 前向传播过程中,定期保存隐藏状态的快照。当需要回忆历史信息时,可以从这些缓存的检查点恢复,而不是仅依赖当前隐藏状态。 ### 四种变体 1. **基础 MC** — 均匀间隔缓存 2. **门控聚合 MC** — 使用门控机制选择性地缓存重要状态 3. **稀疏选择 MC** — 稀疏化缓存策略 4. **深层 MC** — 应用于深层记忆模块 ### 复杂度插值 MC 提供了一个可调节的超参数,控制缓存频率,从而在 $O(L)$(传统 RNN)和 $O(L^2)$(Transformer)之间实现灵活插值: - 缓存频率 = 0 → 等价于标准 RNN - 缓存频率 = 1 → 每步都缓存,接近 Transformer 的记忆能力 ## 实验结果 - **语言建模**:MC 提升 RNN 性能 - **长上下文理解**:MC 变体表现接近 Transformer - **上下文回忆任务**:优于 SOTA RNN,接近 Transformer ## 开放问题 - 缓存检查点的最优策略是什么? - MC 与其他次二次架构(Mamba、RWKV)的结合效果如何? - 在实际部署中,缓存带来的内存开销与性能增益的最佳平衡点在哪里? ## 相关概念 - [[behrouz-memory-caching-rnn]] — 原始论文笔记 - [[subquadratic-transformer-alternatives]] — 次二次 Transformer 替代方案