Files
myWiki/concepts/selective-state-space-models.md

51 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "选择性状态空间模型 (Selective State Space Models)"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: [ssm, mamba, selectivity, recurrence]
sources:
- dao-transformers-are-ssms-2024
---
# 选择性状态空间模型 (Selective SSM)
选择性 SSM 是 Mamba (Gu & Dao, 2023) 引入的关键创新:将 SSM 的参数 (A_t, B_t, C_t) 从**时间不变LTI**改为**输入依赖(时变)**。
## 从 LTI 到 Selective
### 线性时不变 (LTI) SSM
```
h_t = A · h_{t-1} + B · x_t [A, B, C 对所有 t 相同]
```
- 等价于卷积 → 可并行训练
- 但无法**有选择地**关注或忽略输入
### 选择性 SSM
```
h_t = A_t · h_{t-1} + B_t · x_t [A_t, B_t, C_t 依赖 x_t]
```
- 模型可以**选择性**地记住/遗忘信息
- 在语言等信息密集型数据上显著优于 LTI
- 但**只能以循环模式计算**,无法并行化为卷积
## 在 SSD 中的演进
Mamba-2 (Dao & Gu, 2024) 对选择性 SSM 做了两个简化:
1. **A_t 退化**:从对角矩阵 → 标量 × 单位矩阵(牺牲少许表达力)
2. **Head 维度扩展**P 从 1 → 64/128
这些简化换取的是 [[ssd-algorithm|SSD 算法]] 的巨大效率收益2-8x 更快)和 GPU Tensor Core 的利用。
## 表达能力
尽管 LTI SSM 在表达能力上不超标准 TransformerMerrill et al., 2025选择性机制通过输入依赖门控突破了此限制——这在 [[enhanced-state-space-models|增强状态空间模型]] 中得到了进一步发展。
## 参考
- [[mamba-ssm|Mamba]]
- [[mamba-2|Mamba-2]]
- [[state-space-models|状态空间模型]]
- [[enhanced-state-space-models|增强状态空间模型]]
- [[dao-transformers-are-ssms-2024|论文]]