Files
myWiki/reviews/dao-transformers-are-ssms-review-20260618.md

60 lines
3.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Review: Transformers are SSMs (Mamba-2)"
created: 2026-06-18
updated: 2026-06-18
type: review
source: dao-transformers-are-ssms-2024
---
# 📌 基本信息
- **论文标题**Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
- **作者**Tri Dao (Princeton) & Albert Gu (CMU) — 也是 Mamba 和 FlashAttention 的作者
- **领域**cs.LG
- **会议**ICML 2024
- **arXiv ID**2405.21060
- **添加时间**2026-06-18
# 🎯 核心概念
1. **[[structured-state-space-duality|SSD 框架]]** — SSM ↔ Attention 的统一对偶框架,通过半可分矩阵连接
2. **[[semiseparable-matrices|半可分矩阵]]** — 子二次参数和乘法的结构化矩阵SSM 和 Attention 的数学桥梁
3. **[[structured-masked-attention|结构化掩码注意力SMA]]** — 线性注意力的推广,数据依赖的位置掩码
4. **[[mamba-2|Mamba-2]]** — 基于 SSD 的新架构2-8x 快于 Mamba
5. **[[ssd-algorithm|SSD 算法]]** — 块分解混合算法,利用 GPU Tensor Core 的同时保持线性复杂度
6. **[[linear-attention|线性注意力]]** — "Transformers are RNNs" 的对偶起源
7. **[[selective-state-space-models|选择性 SSM]]** — 输入依赖的时变参数Mamba 的核心创新
8. **[[head-structure-ssm|SSM 多头结构]]** — MIS/MVA/GVA将 Transformer head 概念引入 SSM
9. **[[tensor-contraction-duality|张量收缩对偶]]** — SSD 的数学基础视角之一
# 🔗 概念网络
这篇论文建立了 **SSM 和 Attention 之间的桥梁**,概念网络体现了三大支柱:
```
数学桥梁: semiseparable-matrices
框架统一: structured-state-space-duality
↙ ↓ ↘
SSM 侧 算法侧 Attention 侧
selective-SSM ssd-algorithm structured-masked-attention
mamba-ssm tensor-contraction-duality linear-attention
mamba-2 head-structure-ssm
```
论文与此前集成的 **Mozer et al. (2026)** 形成深层互补:
- Mozer: 论证了 Transformer 前馈的拓扑局限 → 需要循环
- Dao & Gu: 展示了 SSM循环架构与 Transformer注意力架构的数学统一 → 循环可以做得和注意力一样好且更快
# 📚 Wiki 集成
- **新增页面**10 个1 论文 + 9 概念)
- **更新已有**2 个(`mamba-ssm`, `state-space-models` — 添加 Mamba-2 反向链接)
- **复用页面**5 个(`state-space-models`, `mamba-ssm`, `step-recurrence`, `flash-attention`, `enhanced-state-space-models`
# 💡 关键洞察
1. **理论优雅 → 工程实干**SSD 不是纯理论框架——它直接产生了 2-8x 的加速。半可分矩阵的块分解让 SSM 能使用 GPU Tensor Core这是 Mamba 的 selective scan 做不到的。这是"理论指导工程"的范本。
2. **"XXX are YYY" 的递进**Katharopoulos et al. (2020) 揭示了 "Transformers are RNNs"线性注意力RetNet/GateLoop 推广到更一般的 L 结构,而 Dao & Gu 证明 **Transformers are SSMs** 是最广的框架——任何有快速循环形式的核注意力必然是 SSM。这是一条清晰的理论深化路径。