20260420:first commit

This commit is contained in:
2026-04-20 11:42:41 +08:00
commit dd8345a6ea
45 changed files with 2366 additions and 0 deletions

View File

@@ -0,0 +1,54 @@
---
title: "Memory Caching (MC)"
created: 2026-04-19
updated: 2026-04-19
type: concept
tags: [architecture, deep-learning, llm]
sources: [raw/papers/behrouz-memory-caching-rnn-2026.md]
---
# Memory Caching (MC)
**提出者:** Behrouz et al. (2026) · arXiv:2602.24281
## 定义
Memory Caching 是一种增强循环神经网络RNN的技术通过缓存其隐藏状态的检查点checkpoints使 RNN 的有效记忆容量能够随序列长度动态增长。
## 动机
Transformer 成为序列建模范式的主要原因是其**记忆容量随上下文长度增长**的特性,这使得检索任务表现优异。然而,这也带来了 $O(L^2)$ 的二次复杂度。近年来研究者探索了次二次复杂度的 RNN 替代方案,但 RNN 在回忆密集型任务中表现不佳,通常归因于其**固定大小的记忆**限制。
## 技术原理
MC 的核心思想:在 RNN 前向传播过程中,定期保存隐藏状态的快照。当需要回忆历史信息时,可以从这些缓存的检查点恢复,而不是仅依赖当前隐藏状态。
### 四种变体
1. **基础 MC** — 均匀间隔缓存
2. **门控聚合 MC** — 使用门控机制选择性地缓存重要状态
3. **稀疏选择 MC** — 稀疏化缓存策略
4. **深层 MC** — 应用于深层记忆模块
### 复杂度插值
MC 提供了一个可调节的超参数,控制缓存频率,从而在 $O(L)$(传统 RNN和 $O(L^2)$Transformer之间实现灵活插值
- 缓存频率 = 0 → 等价于标准 RNN
- 缓存频率 = 1 → 每步都缓存,接近 Transformer 的记忆能力
## 实验结果
- **语言建模**MC 提升 RNN 性能
- **长上下文理解**MC 变体表现接近 Transformer
- **上下文回忆任务**:优于 SOTA RNN接近 Transformer
## 开放问题
- 缓存检查点的最优策略是什么?
- MC 与其他次二次架构Mamba、RWKV的结合效果如何
- 在实际部署中,缓存带来的内存开销与性能增益的最佳平衡点在哪里?
## 相关概念
- [[behrouz-memory-caching-rnn]] — 原始论文笔记
- [[subquadratic-transformer-alternatives]] — 次二次 Transformer 替代方案