20260625:很多新内容

This commit is contained in:
2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions

View File

@@ -0,0 +1,70 @@
---
title: "Review: Mamba — Linear-Time Sequence Modeling with Selective State Spaces"
created: 2026-06-18
type: review
tags: ["ssm", "mamba", "linear-complexity", "architecture"]
---
# Mamba Review
📌 基本信息
- **论文标题**Mamba: Linear-Time Sequence Modeling with Selective State Spaces
- **作者**Albert Gu (CMU), Tri Dao (Princeton)
- **发表**2023-12preprint
- **arXiv ID**2312.00752v2
- **领域**cs.LG — 序列建模架构
- **代码**https://github.com/state-spaces/mamba
- **Wiki 添加时间**2026-06-18
🎯 核心概念
1. [[selective-state-space]]S6— 将 SSM 参数 B, C, Δ 变为输入依赖,从 LTI 升级为选择性
2. [[hardware-aware-algorithm]] — GPU 内存层次优化的并行关联扫描
3. [[content-based-reasoning]] — Mamba 识别并解决的 LTI 模型核心弱点
4. [[selective-copy]] + [[induction-heads]] — 两个精确诊断内容感知能力的合成任务
🔗 概念网络
**核心连接链**
```
[[hippo]] → [[structured-state-space-models]] (S4)
→ [[selective-state-space]] (S6)
→ [[mamba-ssm]] (Mamba 架构)
→ [[gu-mamba]] (论文页)
```
**横向连接**
```
[[content-based-reasoning]] ← Mamba 解决的核心问题
[[selective-state-space]] + [[hardware-aware-algorithm]]
[[selective-copy]] + [[induction-heads]] ← 诊断基准
```
- **连接已有概念**[[state-space-models]](已有),[[mamba-ssm]](已有,已更新)
- **网络密度**:新概念之间 3-5 个双向链接
📚 Wiki 集成
- **新增页面**9 个1 论文 `gu-mamba` + 7 新概念 + 1 Review
- **更新页面**2 个([[mamba-ssm]] 大幅扩充,[[state-space-models]] 追加引用)
- **概念分布**
- 核心机制3[[selective-state-space]], [[hardware-aware-algorithm]], [[content-based-reasoning]]
- 前身与基础2[[structured-state-space-models]], [[hippo]]
- 诊断任务2[[selective-copy]], [[induction-heads]]
- 已有复用2[[mamba-ssm]](更新),[[state-space-models]](更新)
💡 关键洞察
1. **"LTI 是牢笼,选择性是钥匙"**
Mamba 最深刻的洞察不是技术细节,而是对问题的诊断:**LTI 本身就是 LTI 模型的最大瓶颈**。这个诊断比 S6 本身更有价值——它解释了为什么 S4、H3、Hyena、RWKV-4 等所有基于 LTI 的方法在语言任务上始终无法追上 Transformer。内容感知不是在 SSM 上的"锦上添花",而是**质变的前提**。
2. **从"不能做 X"到"如何做 X"的范式转变**
在 Mamba 之前SSM 文献主要在讨论如何让 SSM 更好地压缩历史、更快地计算。Mamba 转换了问题:不再问"如何更好地记住一切",而是问"如何学会选择性地忘记"。这个 reframing 将 SSM 从信号处理的思路拉回了语言建模的核心需求。
3. **工程与理论的完美协同**
选择机制 → 不能卷积 → 需要 scan → IO 感知优化。Mamba 的贡献链展示了理论诊断 → 算法创新 → 系统优化的完整闭环。缺少任何一环都不成立:没有选择性,不需要硬件优化;没有硬件优化,选择性不可训练。