---
title: "Memory Caching (MC)"
created: 2026-04-19
updated: 2026-04-19
type: concept
tags: [architecture, deep-learning, llm]
sources: [raw/papers/behrouz-memory-caching-rnn-2026.md]
---

# Memory Caching (MC)

**提出者:** Behrouz et al. (2026) · arXiv:2602.24281

## 定义

Memory Caching 是一种增强循环神经网络（RNN）的技术，通过缓存其隐藏状态的检查点（checkpoints），使 RNN 的有效记忆容量能够随序列长度动态增长。

## 动机

Transformer 成为序列建模范式的主要原因是其**记忆容量随上下文长度增长**的特性，这使得检索任务表现优异。然而，这也带来了 $O(L^2)$ 的二次复杂度。近年来研究者探索了次二次复杂度的 RNN 替代方案，但 RNN 在回忆密集型任务中表现不佳，通常归因于其**固定大小的记忆**限制。

## 技术原理

MC 的核心思想：在 RNN 前向传播过程中，定期保存隐藏状态的快照。当需要回忆历史信息时，可以从这些缓存的检查点恢复，而不是仅依赖当前隐藏状态。

### 四种变体

1. **基础 MC** — 均匀间隔缓存
2. **门控聚合 MC** — 使用门控机制选择性地缓存重要状态
3. **稀疏选择 MC** — 稀疏化缓存策略
4. **深层 MC** — 应用于深层记忆模块

### 复杂度插值

MC 提供了一个可调节的超参数，控制缓存频率，从而在 $O(L)$（传统 RNN）和 $O(L^2)$（Transformer）之间实现灵活插值：
- 缓存频率 = 0 → 等价于标准 RNN
- 缓存频率 = 1 → 每步都缓存，接近 Transformer 的记忆能力

## 实验结果

- **语言建模**：MC 提升 RNN 性能
- **长上下文理解**：MC 变体表现接近 Transformer
- **上下文回忆任务**：优于 SOTA RNN，接近 Transformer

## 开放问题

- 缓存检查点的最优策略是什么？
- MC 与其他次二次架构（Mamba、RWKV）的结合效果如何？
- 在实际部署中，缓存带来的内存开销与性能增益的最佳平衡点在哪里？

## 相关概念

- [[behrouz-memory-caching-rnn]] — 原始论文笔记
- [[subquadratic-transformer-alternatives]] — 次二次 Transformer 替代方案