title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| 次二次 Transformer 替代方案 |
2026-04-19 |
2026-04-19 |
concept |
| architecture |
| deep-learning |
| llm |
|
| raw/papers/behrouz-memory-caching-rnn-2026.md |
|
次二次 Transformer 替代方案 (Subquadratic Transformer Alternatives)
问题定义
Transformer 的核心瓶颈在于自注意力机制的 O(L^2) 计算和内存复杂度,限制了其在长序列上的应用。近年来涌现了多种次二次复杂度的替代架构。
主要方向
RNN 类
- 传统 RNN/LSTM/GRU —
O(L) 复杂度,但固定记忆限制回忆能力
- Memory Caching (MC) — 通过缓存检查点扩展 RNN 记忆 memory-caching-rnn
- Mamba/State Space Models — 结构化状态空间,
O(L) 复杂度
- RWKV — 结合 Transformer 和 RNN 优势
线性注意力
- Linear Transformers — 通过核方法将注意力线性化
- Performer — 使用随机特征近似的线性注意力
其他
- Hyena — 基于长卷积的序列模型
- Griffin — 门控卷积与线性注意力的混合
核心权衡
| 架构类型 |
复杂度 |
记忆能力 |
并行训练 |
| Transformer |
O(L^2) |
★★★★★ |
✓ |
| MC-RNN |
$O(L)$~O(L^2) |
★★★★ |
✗ |
| SSM/Mamba |
O(L) |
★★★☆ |
部分 |
| Linear Attn |
O(L) |
★★★ |
✓ |
开放问题
- 是否存在一种架构能同时实现
O(L) 复杂度和 Transformer 级别的回忆能力?
- Memory Caching 是否可推广到其他次二次架构?
相关概念