20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/reviews/dao-transformers-are-ssms-review-20260618.md
+++ b/reviews/dao-transformers-are-ssms-review-20260618.md
@@ -0,0 +1,59 @@
+---
+title: "Review: Transformers are SSMs (Mamba-2)"
+created: 2026-06-18
+updated: 2026-06-18
+type: review
+source: dao-transformers-are-ssms-2024
+---
+
+# 📌 基本信息
+
+- **论文标题**：Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
+- **作者**：Tri Dao (Princeton) & Albert Gu (CMU) — 也是 Mamba 和 FlashAttention 的作者
+- **领域**：cs.LG
+- **会议**：ICML 2024
+- **arXiv ID**：2405.21060
+- **添加时间**：2026-06-18
+
+# 🎯 核心概念
+
+1. **[[structured-state-space-duality|SSD 框架]]** — SSM ↔ Attention 的统一对偶框架，通过半可分矩阵连接
+2. **[[semiseparable-matrices|半可分矩阵]]** — 子二次参数和乘法的结构化矩阵，SSM 和 Attention 的数学桥梁
+3. **[[structured-masked-attention|结构化掩码注意力（SMA）]]** — 线性注意力的推广，数据依赖的位置掩码
+4. **[[mamba-2|Mamba-2]]** — 基于 SSD 的新架构，2-8x 快于 Mamba
+5. **[[ssd-algorithm|SSD 算法]]** — 块分解混合算法，利用 GPU Tensor Core 的同时保持线性复杂度
+6. **[[linear-attention|线性注意力]]** — "Transformers are RNNs" 的对偶起源
+7. **[[selective-state-space-models|选择性 SSM]]** — 输入依赖的时变参数，Mamba 的核心创新
+8. **[[head-structure-ssm|SSM 多头结构]]** — MIS/MVA/GVA，将 Transformer head 概念引入 SSM
+9. **[[tensor-contraction-duality|张量收缩对偶]]** — SSD 的数学基础视角之一
+
+# 🔗 概念网络
+
+这篇论文建立了 **SSM 和 Attention 之间的桥梁**，概念网络体现了三大支柱：
+
+```
+数学桥梁: semiseparable-matrices
+              ↓
+框架统一: structured-state-space-duality
+         ↙          ↓           ↘
+    SSM 侧        算法侧       Attention 侧
+selective-SSM   ssd-algorithm   structured-masked-attention
+mamba-ssm       tensor-contraction-duality   linear-attention
+mamba-2         head-structure-ssm
+```
+
+论文与此前集成的 **Mozer et al. (2026)** 形成深层互补：
+- Mozer: 论证了 Transformer 前馈的拓扑局限 → 需要循环
+- Dao & Gu: 展示了 SSM（循环架构）与 Transformer（注意力架构）的数学统一 → 循环可以做得和注意力一样好且更快
+
+# 📚 Wiki 集成
+
+- **新增页面**：10 个（1 论文 + 9 概念）
+- **更新已有**：2 个（`mamba-ssm`, `state-space-models` — 添加 Mamba-2 反向链接）
+- **复用页面**：5 个（`state-space-models`, `mamba-ssm`, `step-recurrence`, `flash-attention`, `enhanced-state-space-models`）
+
+# 💡 关键洞察
+
+1. **理论优雅 → 工程实干**：SSD 不是纯理论框架——它直接产生了 2-8x 的加速。半可分矩阵的块分解让 SSM 能使用 GPU Tensor Core，这是 Mamba 的 selective scan 做不到的。这是"理论指导工程"的范本。
+
+2. **"XXX are YYY" 的递进**：Katharopoulos et al. (2020) 揭示了 "Transformers are RNNs"（线性注意力），RetNet/GateLoop 推广到更一般的 L 结构，而 Dao & Gu 证明 **Transformers are SSMs** 是最广的框架——任何有快速循环形式的核注意力必然是 SSM。这是一条清晰的理论深化路径。