20260420:first commit

2026-04-20 11:42:41 +08:00
commit dd8345a6ea
45 changed files with 2366 additions and 0 deletions
--- a/concepts/subquadratic-transformer-alternatives.md
+++ b/concepts/subquadratic-transformer-alternatives.md
@@ -0,0 +1,49 @@
+---
+title: "次二次 Transformer 替代方案"
+created: 2026-04-19
+updated: 2026-04-19
+type: concept
+tags: [architecture, deep-learning, llm]
+sources: [raw/papers/behrouz-memory-caching-rnn-2026.md]
+---
+
+# 次二次 Transformer 替代方案 (Subquadratic Transformer Alternatives)
+
+## 问题定义
+
+Transformer 的核心瓶颈在于自注意力机制的 $O(L^2)$ 计算和内存复杂度，限制了其在长序列上的应用。近年来涌现了多种次二次复杂度的替代架构。
+
+## 主要方向
+
+### RNN 类
+- **传统 RNN/LSTM/GRU** — $O(L)$ 复杂度，但固定记忆限制回忆能力
+- **Memory Caching (MC)** — 通过缓存检查点扩展 RNN 记忆 [[memory-caching-rnn]]
+- **Mamba/State Space Models** — 结构化状态空间，$O(L)$ 复杂度
+- **RWKV** — 结合 Transformer 和 RNN 优势
+
+### 线性注意力
+- **Linear Transformers** — 通过核方法将注意力线性化
+- **Performer** — 使用随机特征近似的线性注意力
+
+### 其他
+- **Hyena** — 基于长卷积的序列模型
+- **Griffin** — 门控卷积与线性注意力的混合
+
+## 核心权衡
+
+| 架构类型 | 复杂度 | 记忆能力 | 并行训练 |
+|----------|--------|----------|----------|
+| Transformer | $O(L^2)$ | ★★★★★ | ✓ |
+| MC-RNN | $O(L)$~$O(L^2)$ | ★★★★ | ✗ |
+| SSM/Mamba | $O(L)$ | ★★★☆ | 部分 |
+| Linear Attn | $O(L)$ | ★★★ | ✓ |
+
+## 开放问题
+
+- 是否存在一种架构能同时实现 $O(L)$ 复杂度和 Transformer 级别的回忆能力？
+- Memory Caching 是否可推广到其他次二次架构？
+
+## 相关概念
+
+- [[memory-caching-rnn]] — Memory Caching 技术
+- [[behrouz-memory-caching-rnn]] — MC 原始论文