60 lines
3.1 KiB
Markdown
60 lines
3.1 KiB
Markdown
---
|
||
title: "Review: Transformers are SSMs (Mamba-2)"
|
||
created: 2026-06-18
|
||
updated: 2026-06-18
|
||
type: review
|
||
source: dao-transformers-are-ssms-2024
|
||
---
|
||
|
||
# 📌 基本信息
|
||
|
||
- **论文标题**:Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
|
||
- **作者**:Tri Dao (Princeton) & Albert Gu (CMU) — 也是 Mamba 和 FlashAttention 的作者
|
||
- **领域**:cs.LG
|
||
- **会议**:ICML 2024
|
||
- **arXiv ID**:2405.21060
|
||
- **添加时间**:2026-06-18
|
||
|
||
# 🎯 核心概念
|
||
|
||
1. **[[structured-state-space-duality|SSD 框架]]** — SSM ↔ Attention 的统一对偶框架,通过半可分矩阵连接
|
||
2. **[[semiseparable-matrices|半可分矩阵]]** — 子二次参数和乘法的结构化矩阵,SSM 和 Attention 的数学桥梁
|
||
3. **[[structured-masked-attention|结构化掩码注意力(SMA)]]** — 线性注意力的推广,数据依赖的位置掩码
|
||
4. **[[mamba-2|Mamba-2]]** — 基于 SSD 的新架构,2-8x 快于 Mamba
|
||
5. **[[ssd-algorithm|SSD 算法]]** — 块分解混合算法,利用 GPU Tensor Core 的同时保持线性复杂度
|
||
6. **[[linear-attention|线性注意力]]** — "Transformers are RNNs" 的对偶起源
|
||
7. **[[selective-state-space-models|选择性 SSM]]** — 输入依赖的时变参数,Mamba 的核心创新
|
||
8. **[[head-structure-ssm|SSM 多头结构]]** — MIS/MVA/GVA,将 Transformer head 概念引入 SSM
|
||
9. **[[tensor-contraction-duality|张量收缩对偶]]** — SSD 的数学基础视角之一
|
||
|
||
# 🔗 概念网络
|
||
|
||
这篇论文建立了 **SSM 和 Attention 之间的桥梁**,概念网络体现了三大支柱:
|
||
|
||
```
|
||
数学桥梁: semiseparable-matrices
|
||
↓
|
||
框架统一: structured-state-space-duality
|
||
↙ ↓ ↘
|
||
SSM 侧 算法侧 Attention 侧
|
||
selective-SSM ssd-algorithm structured-masked-attention
|
||
mamba-ssm tensor-contraction-duality linear-attention
|
||
mamba-2 head-structure-ssm
|
||
```
|
||
|
||
论文与此前集成的 **Mozer et al. (2026)** 形成深层互补:
|
||
- Mozer: 论证了 Transformer 前馈的拓扑局限 → 需要循环
|
||
- Dao & Gu: 展示了 SSM(循环架构)与 Transformer(注意力架构)的数学统一 → 循环可以做得和注意力一样好且更快
|
||
|
||
# 📚 Wiki 集成
|
||
|
||
- **新增页面**:10 个(1 论文 + 9 概念)
|
||
- **更新已有**:2 个(`mamba-ssm`, `state-space-models` — 添加 Mamba-2 反向链接)
|
||
- **复用页面**:5 个(`state-space-models`, `mamba-ssm`, `step-recurrence`, `flash-attention`, `enhanced-state-space-models`)
|
||
|
||
# 💡 关键洞察
|
||
|
||
1. **理论优雅 → 工程实干**:SSD 不是纯理论框架——它直接产生了 2-8x 的加速。半可分矩阵的块分解让 SSM 能使用 GPU Tensor Core,这是 Mamba 的 selective scan 做不到的。这是"理论指导工程"的范本。
|
||
|
||
2. **"XXX are YYY" 的递进**:Katharopoulos et al. (2020) 揭示了 "Transformers are RNNs"(线性注意力),RetNet/GateLoop 推广到更一般的 L 结构,而 Dao & Gu 证明 **Transformers are SSMs** 是最广的框架——任何有快速循环形式的核注意力必然是 SSM。这是一条清晰的理论深化路径。
|