2.1 KiB
2.1 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 状态空间模型 (State-Space Models) | 2026-06-18 | 2026-06-18 | concept |
|
|
状态空间模型 (State-Space Models)
状态空间模型(SSM)是一类通过隐状态横向传播实现序列建模的架构(step-recurrence),在 Mozer et al. (2026) 的分类中占据步级循环轴的核心位置。
核心形式
SSM 在每层内维护一个隐状态,从前一步向后一步传播:
h_t = A * h_{t-1} + B * x_t (状态更新)
y_t = C * h_t (输出投影)
主要架构
| 架构 | 特点 |
|---|---|
| 线性注意力(Katharopoulos et al., 2020) | 核化注意力 = 线性 SSM |
| Mamba(Gu & Dao, 2024) | 输入依赖的选择性门控 |
| DeltaNet(Schlag et al., 2021) | Delta 规则更新,快速权重 |
| RWKV-7(Peng et al., 2025) | 线性注意力 + Delta 规则 |
| Canon Layers(Allen-Zhu, 2025) | 规范形式层 |
表达能力边界
Merrill et al. (2025) 的关键结论:
- 线性更新的 SSM 不超过 Transformer 表达能力
- 增强 SSM(如 DeltaNet 负特征值扩展,Grazzi et al., 2025)可超越
- 门控线性注意力 + Transformer 混合优于纯方案(Merrill et al., 2026)
优势与局限
优势:
- 推理时 O(1) 记忆(不需要 KV cache 随序列增长)
- 训练时可并行(关联扫描)
局限:
- 标准形式不能实现无限状态追踪
- 选择性门控(Mamba)增加了表达能力但仍有限