20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/selective-state-space-models.md
+++ b/concepts/selective-state-space-models.md
@@ -0,0 +1,50 @@
+---
+title: "选择性状态空间模型 (Selective State Space Models)"
+created: 2026-06-18
+updated: 2026-06-18
+type: concept
+tags: [ssm, mamba, selectivity, recurrence]
+sources:
+  - dao-transformers-are-ssms-2024
+---
+
+# 选择性状态空间模型 (Selective SSM)
+
+选择性 SSM 是 Mamba (Gu & Dao, 2023) 引入的关键创新：将 SSM 的参数 (A_t, B_t, C_t) 从**时间不变（LTI）**改为**输入依赖（时变）**。
+
+## 从 LTI 到 Selective
+
+### 线性时不变 (LTI) SSM
+```
+h_t = A · h_{t-1} + B · x_t    [A, B, C 对所有 t 相同]
+```
+- 等价于卷积 → 可并行训练
+- 但无法**有选择地**关注或忽略输入
+
+### 选择性 SSM
+```
+h_t = A_t · h_{t-1} + B_t · x_t    [A_t, B_t, C_t 依赖 x_t]
+```
+- 模型可以**选择性**地记住/遗忘信息
+- 在语言等信息密集型数据上显著优于 LTI
+- 但**只能以循环模式计算**，无法并行化为卷积
+
+## 在 SSD 中的演进
+
+Mamba-2 (Dao & Gu, 2024) 对选择性 SSM 做了两个简化：
+1. **A_t 退化**：从对角矩阵 → 标量 × 单位矩阵（牺牲少许表达力）
+2. **Head 维度扩展**：P 从 1 → 64/128
+
+这些简化换取的是 [[ssd-algorithm|SSD 算法]] 的巨大效率收益（2-8x 更快）和 GPU Tensor Core 的利用。
+
+## 表达能力
+
+尽管 LTI SSM 在表达能力上不超标准 Transformer（Merrill et al., 2025），选择性机制通过输入依赖门控突破了此限制——这在 [[enhanced-state-space-models|增强状态空间模型]] 中得到了进一步发展。
+
+## 参考
+
+- [[mamba-ssm|Mamba]]
+- [[mamba-2|Mamba-2]]
+- [[state-space-models|状态空间模型]]
+- [[enhanced-state-space-models|增强状态空间模型]]
+- [[dao-transformers-are-ssms-2024|论文]]