3.1 KiB
3.1 KiB
title, created, updated, type, source
| title | created | updated | type | source |
|---|---|---|---|---|
| Review: Transformers are SSMs (Mamba-2) | 2026-06-18 | 2026-06-18 | review | dao-transformers-are-ssms-2024 |
📌 基本信息
- 论文标题:Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
- 作者:Tri Dao (Princeton) & Albert Gu (CMU) — 也是 Mamba 和 FlashAttention 的作者
- 领域:cs.LG
- 会议:ICML 2024
- arXiv ID:2405.21060
- 添加时间:2026-06-18
🎯 核心概念
- structured-state-space-duality — SSM ↔ Attention 的统一对偶框架,通过半可分矩阵连接
- semiseparable-matrices — 子二次参数和乘法的结构化矩阵,SSM 和 Attention 的数学桥梁
- structured-masked-attention — 线性注意力的推广,数据依赖的位置掩码
- mamba-2 — 基于 SSD 的新架构,2-8x 快于 Mamba
- ssd-algorithm — 块分解混合算法,利用 GPU Tensor Core 的同时保持线性复杂度
- linear-attention — "Transformers are RNNs" 的对偶起源
- selective-state-space-models — 输入依赖的时变参数,Mamba 的核心创新
- head-structure-ssm — MIS/MVA/GVA,将 Transformer head 概念引入 SSM
- tensor-contraction-duality — SSD 的数学基础视角之一
🔗 概念网络
这篇论文建立了 SSM 和 Attention 之间的桥梁,概念网络体现了三大支柱:
数学桥梁: semiseparable-matrices
↓
框架统一: structured-state-space-duality
↙ ↓ ↘
SSM 侧 算法侧 Attention 侧
selective-SSM ssd-algorithm structured-masked-attention
mamba-ssm tensor-contraction-duality linear-attention
mamba-2 head-structure-ssm
论文与此前集成的 Mozer et al. (2026) 形成深层互补:
- Mozer: 论证了 Transformer 前馈的拓扑局限 → 需要循环
- Dao & Gu: 展示了 SSM(循环架构)与 Transformer(注意力架构)的数学统一 → 循环可以做得和注意力一样好且更快
📚 Wiki 集成
- 新增页面:10 个(1 论文 + 9 概念)
- 更新已有:2 个(
mamba-ssm,state-space-models— 添加 Mamba-2 反向链接) - 复用页面:5 个(
state-space-models,mamba-ssm,step-recurrence,flash-attention,enhanced-state-space-models)
💡 关键洞察
-
理论优雅 → 工程实干:SSD 不是纯理论框架——它直接产生了 2-8x 的加速。半可分矩阵的块分解让 SSM 能使用 GPU Tensor Core,这是 Mamba 的 selective scan 做不到的。这是"理论指导工程"的范本。
-
"XXX are YYY" 的递进:Katharopoulos et al. (2020) 揭示了 "Transformers are RNNs"(线性注意力),RetNet/GateLoop 推广到更一般的 L 结构,而 Dao & Gu 证明 Transformers are SSMs 是最广的框架——任何有快速循环形式的核注意力必然是 SSM。这是一条清晰的理论深化路径。