Mamba Review

📌 基本信息

论文标题：Mamba: Linear-Time Sequence Modeling with Selective State Spaces
作者：Albert Gu (CMU), Tri Dao (Princeton)
发表：2023-12（preprint）
arXiv ID：2312.00752v2
领域：cs.LG — 序列建模架构
代码：https://github.com/state-spaces/mamba
Wiki 添加时间：2026-06-18

🎯 核心概念

selective-state-space（S6）— 将 SSM 参数 B, C, Δ 变为输入依赖，从 LTI 升级为选择性
hardware-aware-algorithm — GPU 内存层次优化的并行关联扫描
content-based-reasoning — Mamba 识别并解决的 LTI 模型核心弱点
selective-copy + induction-heads — 两个精确诊断内容感知能力的合成任务

🔗 概念网络

核心连接链：

[[hippo]] → [[structured-state-space-models]] (S4)
  → [[selective-state-space]] (S6)
    → [[mamba-ssm]] (Mamba 架构)
      → [[gu-mamba]] (论文页)

横向连接：

[[content-based-reasoning]] ← Mamba 解决的核心问题
  ↓
[[selective-state-space]] + [[hardware-aware-algorithm]]
  ↓
[[selective-copy]] + [[induction-heads]] ← 诊断基准

连接已有概念：state-space-models（已有），mamba-ssm（已有，已更新）
网络密度：新概念之间 3-5 个双向链接

📚 Wiki 集成

新增页面：9 个（1 论文 gu-mamba + 7 新概念 + 1 Review）
更新页面：2 个（mamba-ssm 大幅扩充，state-space-models 追加引用）
概念分布：
- 核心机制（3）：selective-state-space, hardware-aware-algorithm, content-based-reasoning
- 前身与基础（2）：structured-state-space-models, hippo
- 诊断任务（2）：selective-copy, induction-heads
- 已有复用（2）：mamba-ssm（更新），state-space-models（更新）

💡 关键洞察

"LTI 是牢笼，选择性是钥匙"

Mamba 最深刻的洞察不是技术细节，而是对问题的诊断：LTI 本身就是 LTI 模型的最大瓶颈。这个诊断比 S6 本身更有价值——它解释了为什么 S4、H3、Hyena、RWKV-4 等所有基于 LTI 的方法在语言任务上始终无法追上 Transformer。内容感知不是在 SSM 上的"锦上添花"，而是质变的前提。
从"不能做 X"到"如何做 X"的范式转变

在 Mamba 之前，SSM 文献主要在讨论如何让 SSM 更好地压缩历史、更快地计算。Mamba 转换了问题：不再问"如何更好地记住一切"，而是问"如何学会选择性地忘记"。这个 reframing 将 SSM 从信号处理的思路拉回了语言建模的核心需求。
工程与理论的完美协同

选择机制 → 不能卷积 → 需要 scan → IO 感知优化。Mamba 的贡献链展示了理论诊断 → 算法创新 → 系统优化的完整闭环。缺少任何一环都不成立：没有选择性，不需要硬件优化；没有硬件优化，选择性不可训练。

3.1 KiB Raw Blame History Unescape Escape

Mamba Review

3.1 KiB

Raw Blame History