20260420:first commit

2026-04-20 11:42:41 +08:00
commit dd8345a6ea
45 changed files with 2366 additions and 0 deletions
--- a/concepts/memory-caching-rnn.md
+++ b/concepts/memory-caching-rnn.md
@@ -0,0 +1,54 @@
+---
+title: "Memory Caching (MC)"
+created: 2026-04-19
+updated: 2026-04-19
+type: concept
+tags: [architecture, deep-learning, llm]
+sources: [raw/papers/behrouz-memory-caching-rnn-2026.md]
+---
+
+# Memory Caching (MC)
+
+**提出者:** Behrouz et al. (2026) · arXiv:2602.24281
+
+## 定义
+
+Memory Caching 是一种增强循环神经网络（RNN）的技术，通过缓存其隐藏状态的检查点（checkpoints），使 RNN 的有效记忆容量能够随序列长度动态增长。
+
+## 动机
+
+Transformer 成为序列建模范式的主要原因是其**记忆容量随上下文长度增长**的特性，这使得检索任务表现优异。然而，这也带来了 $O(L^2)$ 的二次复杂度。近年来研究者探索了次二次复杂度的 RNN 替代方案，但 RNN 在回忆密集型任务中表现不佳，通常归因于其**固定大小的记忆**限制。
+
+## 技术原理
+
+MC 的核心思想：在 RNN 前向传播过程中，定期保存隐藏状态的快照。当需要回忆历史信息时，可以从这些缓存的检查点恢复，而不是仅依赖当前隐藏状态。
+
+### 四种变体
+
+1. **基础 MC** — 均匀间隔缓存
+2. **门控聚合 MC** — 使用门控机制选择性地缓存重要状态
+3. **稀疏选择 MC** — 稀疏化缓存策略
+4. **深层 MC** — 应用于深层记忆模块
+
+### 复杂度插值
+
+MC 提供了一个可调节的超参数，控制缓存频率，从而在 $O(L)$（传统 RNN）和 $O(L^2)$（Transformer）之间实现灵活插值：
+- 缓存频率 = 0 → 等价于标准 RNN
+- 缓存频率 = 1 → 每步都缓存，接近 Transformer 的记忆能力
+
+## 实验结果
+
+- **语言建模**：MC 提升 RNN 性能
+- **长上下文理解**：MC 变体表现接近 Transformer
+- **上下文回忆任务**：优于 SOTA RNN，接近 Transformer
+
+## 开放问题
+
+- 缓存检查点的最优策略是什么？
+- MC 与其他次二次架构（Mamba、RWKV）的结合效果如何？
+- 在实际部署中，缓存带来的内存开销与性能增益的最佳平衡点在哪里？
+
+## 相关概念
+
+- [[behrouz-memory-caching-rnn]] — 原始论文笔记
+- [[subquadratic-transformer-alternatives]] — 次二次 Transformer 替代方案