Files
myWiki/reviews/dao-transformers-are-ssms-review-20260618.md

3.1 KiB
Raw Blame History

title, created, updated, type, source
title created updated type source
Review: Transformers are SSMs (Mamba-2) 2026-06-18 2026-06-18 review dao-transformers-are-ssms-2024

📌 基本信息

  • 论文标题Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
  • 作者Tri Dao (Princeton) & Albert Gu (CMU) — 也是 Mamba 和 FlashAttention 的作者
  • 领域cs.LG
  • 会议ICML 2024
  • arXiv ID2405.21060
  • 添加时间2026-06-18

🎯 核心概念

  1. structured-state-space-duality — SSM ↔ Attention 的统一对偶框架,通过半可分矩阵连接
  2. semiseparable-matrices — 子二次参数和乘法的结构化矩阵SSM 和 Attention 的数学桥梁
  3. structured-masked-attention — 线性注意力的推广,数据依赖的位置掩码
  4. mamba-2 — 基于 SSD 的新架构2-8x 快于 Mamba
  5. ssd-algorithm — 块分解混合算法,利用 GPU Tensor Core 的同时保持线性复杂度
  6. linear-attention — "Transformers are RNNs" 的对偶起源
  7. selective-state-space-models — 输入依赖的时变参数Mamba 的核心创新
  8. head-structure-ssm — MIS/MVA/GVA将 Transformer head 概念引入 SSM
  9. tensor-contraction-duality — SSD 的数学基础视角之一

🔗 概念网络

这篇论文建立了 SSM 和 Attention 之间的桥梁,概念网络体现了三大支柱:

数学桥梁: semiseparable-matrices
              ↓
框架统一: structured-state-space-duality
         ↙          ↓           ↘
    SSM 侧        算法侧       Attention 侧
selective-SSM   ssd-algorithm   structured-masked-attention
mamba-ssm       tensor-contraction-duality   linear-attention
mamba-2         head-structure-ssm

论文与此前集成的 Mozer et al. (2026) 形成深层互补:

  • Mozer: 论证了 Transformer 前馈的拓扑局限 → 需要循环
  • Dao & Gu: 展示了 SSM循环架构与 Transformer注意力架构的数学统一 → 循环可以做得和注意力一样好且更快

📚 Wiki 集成

  • 新增页面10 个1 论文 + 9 概念)
  • 更新已有2 个(mamba-ssm, state-space-models — 添加 Mamba-2 反向链接)
  • 复用页面5 个(state-space-models, mamba-ssm, step-recurrence, flash-attention, enhanced-state-space-models

💡 关键洞察

  1. 理论优雅 → 工程实干SSD 不是纯理论框架——它直接产生了 2-8x 的加速。半可分矩阵的块分解让 SSM 能使用 GPU Tensor Core这是 Mamba 的 selective scan 做不到的。这是"理论指导工程"的范本。

  2. "XXX are YYY" 的递进Katharopoulos et al. (2020) 揭示了 "Transformers are RNNs"线性注意力RetNet/GateLoop 推广到更一般的 L 结构,而 Dao & Gu 证明 Transformers are SSMs 是最广的框架——任何有快速循环形式的核注意力必然是 SSM。这是一条清晰的理论深化路径。