51 lines
1.7 KiB
Markdown
51 lines
1.7 KiB
Markdown
---
|
||
title: "选择性状态空间模型 (Selective State Space Models)"
|
||
created: 2026-06-18
|
||
updated: 2026-06-18
|
||
type: concept
|
||
tags: [ssm, mamba, selectivity, recurrence]
|
||
sources:
|
||
- dao-transformers-are-ssms-2024
|
||
---
|
||
|
||
# 选择性状态空间模型 (Selective SSM)
|
||
|
||
选择性 SSM 是 Mamba (Gu & Dao, 2023) 引入的关键创新:将 SSM 的参数 (A_t, B_t, C_t) 从**时间不变(LTI)**改为**输入依赖(时变)**。
|
||
|
||
## 从 LTI 到 Selective
|
||
|
||
### 线性时不变 (LTI) SSM
|
||
```
|
||
h_t = A · h_{t-1} + B · x_t [A, B, C 对所有 t 相同]
|
||
```
|
||
- 等价于卷积 → 可并行训练
|
||
- 但无法**有选择地**关注或忽略输入
|
||
|
||
### 选择性 SSM
|
||
```
|
||
h_t = A_t · h_{t-1} + B_t · x_t [A_t, B_t, C_t 依赖 x_t]
|
||
```
|
||
- 模型可以**选择性**地记住/遗忘信息
|
||
- 在语言等信息密集型数据上显著优于 LTI
|
||
- 但**只能以循环模式计算**,无法并行化为卷积
|
||
|
||
## 在 SSD 中的演进
|
||
|
||
Mamba-2 (Dao & Gu, 2024) 对选择性 SSM 做了两个简化:
|
||
1. **A_t 退化**:从对角矩阵 → 标量 × 单位矩阵(牺牲少许表达力)
|
||
2. **Head 维度扩展**:P 从 1 → 64/128
|
||
|
||
这些简化换取的是 [[ssd-algorithm|SSD 算法]] 的巨大效率收益(2-8x 更快)和 GPU Tensor Core 的利用。
|
||
|
||
## 表达能力
|
||
|
||
尽管 LTI SSM 在表达能力上不超标准 Transformer(Merrill et al., 2025),选择性机制通过输入依赖门控突破了此限制——这在 [[enhanced-state-space-models|增强状态空间模型]] 中得到了进一步发展。
|
||
|
||
## 参考
|
||
|
||
- [[mamba-ssm|Mamba]]
|
||
- [[mamba-2|Mamba-2]]
|
||
- [[state-space-models|状态空间模型]]
|
||
- [[enhanced-state-space-models|增强状态空间模型]]
|
||
- [[dao-transformers-are-ssms-2024|论文]]
|