20260420:first commit

2026-04-20 11:42:41 +08:00
commit dd8345a6ea
45 changed files with 2366 additions and 0 deletions
--- a/papers/behrouz-memory-caching-rnn.md
+++ b/papers/behrouz-memory-caching-rnn.md
@@ -0,0 +1,43 @@
+---
+title: "Memory Caching: RNNs with Growing Memory"
+created: 2026-04-19
+updated: 2026-04-19
+type: paper
+tags: [llm, architecture, deep-learning]
+sources: [raw/papers/behrouz-memory-caching-rnn-2026.md]
+---
+
+# Memory Caching: RNNs with Growing Memory
+
+**arXiv:** 2602.24281 [cs.LG] · 2026-02-27
+**作者:** [[Ali Behrouz]], Zeman Li, Yuan Deng, Peilin Zhong, [[Meisam Razaviyayn]], [[Vahab Mirrokni]]
+
+## 核心贡献
+
+提出 **Memory Caching (MC)** 技术，通过缓存 RNN 隐藏状态的检查点，使 RNN 的有效记忆容量随序列长度增长。这一技术在 RNN 的固定记忆 $O(L)$ 和 Transformer 的增长记忆 $O(L^2)$ 之间提供了一个灵活的插值权衡。
+
+## 关键发现
+
+- RNN 在回忆密集型任务中表现不佳的原因通常归因于**固定大小的记忆**
+- MC 通过缓存隐藏状态的检查点，允许 RNN 有效记忆容量增长
+- 提出四种 MC 变体：包括门控聚合和稀疏选择机制
+- 适用于线性和深层记忆模块
+- 实验结果：MC 提升了 RNN 在语言建模和长上下文理解任务上的性能
+- 在上下文回忆任务中，MC 变体表现接近 Transformer，优于当前最优 RNN 模型
+
+## 复杂度分析
+
+| 模型类型 | 记忆复杂度 | 记忆特性 |
+|----------|-----------|----------|
+| 传统 RNN | $O(L)$ | 固定大小记忆 |
+| Transformer | $O(L^2)$ | 随上下文增长 |
+| MC-RNN | $O(L)$ ~ $O(L^2)$ | 可调节的灵活插值 |
+
+## 相关概念
+
+- [[rnn-memory-caching]] — Memory Caching 技术详解
+- [[subquadratic-transformer-alternatives]] — Transformer 的次二次替代方案
+
+## 来源
+
+- arXiv: https://arxiv.org/abs/2602.24281