SidneyZhang/myWiki

Fork 0

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

3.1 KiB

Raw Blame History

title, created, updated, type, source

title	created	updated	type	source
Review: Transformers are SSMs (Mamba-2)	2026-06-18	2026-06-18	review	dao-transformers-are-ssms-2024

📌 基本信息

论文标题：Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
作者：Tri Dao (Princeton) & Albert Gu (CMU) — 也是 Mamba 和 FlashAttention 的作者
领域：cs.LG
会议：ICML 2024
arXiv ID：2405.21060
添加时间：2026-06-18

🎯 核心概念

structured-state-space-duality — SSM ↔ Attention 的统一对偶框架，通过半可分矩阵连接
semiseparable-matrices — 子二次参数和乘法的结构化矩阵，SSM 和 Attention 的数学桥梁
structured-masked-attention — 线性注意力的推广，数据依赖的位置掩码
mamba-2 — 基于 SSD 的新架构，2-8x 快于 Mamba
ssd-algorithm — 块分解混合算法，利用 GPU Tensor Core 的同时保持线性复杂度
linear-attention — "Transformers are RNNs" 的对偶起源
selective-state-space-models — 输入依赖的时变参数，Mamba 的核心创新
head-structure-ssm — MIS/MVA/GVA，将 Transformer head 概念引入 SSM
tensor-contraction-duality — SSD 的数学基础视角之一

🔗 概念网络

这篇论文建立了 SSM 和 Attention 之间的桥梁，概念网络体现了三大支柱：

数学桥梁: semiseparable-matrices
              ↓
框架统一: structured-state-space-duality
         ↙          ↓           ↘
    SSM 侧        算法侧       Attention 侧
selective-SSM   ssd-algorithm   structured-masked-attention
mamba-ssm       tensor-contraction-duality   linear-attention
mamba-2         head-structure-ssm

论文与此前集成的 Mozer et al. (2026) 形成深层互补：

Mozer: 论证了 Transformer 前馈的拓扑局限 → 需要循环
Dao & Gu: 展示了 SSM（循环架构）与 Transformer（注意力架构）的数学统一 → 循环可以做得和注意力一样好且更快

📚 Wiki 集成

新增页面：10 个（1 论文 + 9 概念）
更新已有：2 个（mamba-ssm, state-space-models — 添加 Mamba-2 反向链接）
复用页面：5 个（state-space-models, mamba-ssm, step-recurrence, flash-attention, enhanced-state-space-models）

💡 关键洞察

理论优雅 → 工程实干：SSD 不是纯理论框架——它直接产生了 2-8x 的加速。半可分矩阵的块分解让 SSM 能使用 GPU Tensor Core，这是 Mamba 的 selective scan 做不到的。这是"理论指导工程"的范本。
"XXX are YYY" 的递进：Katharopoulos et al. (2020) 揭示了 "Transformers are RNNs"（线性注意力），RetNet/GateLoop 推广到更一般的 L 结构，而 Dao & Gu 证明 Transformers are SSMs 是最广的框架——任何有快速循环形式的核注意力必然是 SSM。这是一条清晰的理论深化路径。

3.1 KiB Raw Blame History Unescape Escape

📌 基本信息

🎯 核心概念

🔗 概念网络

📚 Wiki 集成

💡 关键洞察

3.1 KiB

Raw Blame History