--- title: "次二次 Transformer 替代方案" created: 2026-04-19 updated: 2026-04-19 type: concept tags: [architecture, deep-learning, llm] sources: [raw/papers/behrouz-memory-caching-rnn-2026.md] --- # 次二次 Transformer 替代方案 (Subquadratic Transformer Alternatives) ## 问题定义 Transformer 的核心瓶颈在于自注意力机制的 $O(L^2)$ 计算和内存复杂度,限制了其在长序列上的应用。近年来涌现了多种次二次复杂度的替代架构。 ## 主要方向 ### RNN 类 - **传统 RNN/LSTM/GRU** — $O(L)$ 复杂度,但固定记忆限制回忆能力 - **Memory Caching (MC)** — 通过缓存检查点扩展 RNN 记忆 [[memory-caching-rnn]] - **Mamba/State Space Models** — 结构化状态空间,$O(L)$ 复杂度 - **RWKV** — 结合 Transformer 和 RNN 优势 ### 线性注意力 - **Linear Transformers** — 通过核方法将注意力线性化 - **Performer** — 使用随机特征近似的线性注意力 ### 其他 - **Hyena** — 基于长卷积的序列模型 - **Griffin** — 门控卷积与线性注意力的混合 ## 核心权衡 | 架构类型 | 复杂度 | 记忆能力 | 并行训练 | |----------|--------|----------|----------| | Transformer | $O(L^2)$ | ★★★★★ | ✓ | | MC-RNN | $O(L)$~$O(L^2)$ | ★★★★ | ✗ | | SSM/Mamba | $O(L)$ | ★★★☆ | 部分 | | Linear Attn | $O(L)$ | ★★★ | ✓ | ## 开放问题 - 是否存在一种架构能同时实现 $O(L)$ 复杂度和 Transformer 级别的回忆能力? - Memory Caching 是否可推广到其他次二次架构? ## 相关概念 - [[memory-caching-rnn]] — Memory Caching 技术 - [[behrouz-memory-caching-rnn]] — MC 原始论文