Files
myWiki/concepts/state-space-models.md

2.1 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
状态空间模型 (State-Space Models) 2026-06-18 2026-06-18 concept
ssm
recurrence
architecture
state-tracking
mozer-topological-trouble-transformers-2026

状态空间模型 (State-Space Models)

状态空间模型SSM是一类通过隐状态横向传播实现序列建模的架构(step-recurrence),在 Mozer et al. (2026) 的分类中占据步级循环轴的核心位置。

核心形式

SSM 在每层内维护一个隐状态,从前一步向后一步传播:

h_t = A * h_{t-1} + B * x_t    (状态更新)
y_t = C * h_t                   (输出投影)

主要架构

架构 特点
线性注意力Katharopoulos et al., 2020 核化注意力 = 线性 SSM
MambaGu & Dao, 2024 输入依赖的选择性门控
DeltaNetSchlag et al., 2021 Delta 规则更新,快速权重
RWKV-7Peng et al., 2025 线性注意力 + Delta 规则
Canon LayersAllen-Zhu, 2025 规范形式层

表达能力边界

Merrill et al. (2025) 的关键结论:

  • 线性更新的 SSM 不超过 Transformer 表达能力
  • 增强 SSM(如 DeltaNet 负特征值扩展Grazzi et al., 2025可超越
  • 门控线性注意力 + Transformer 混合优于纯方案Merrill et al., 2026

优势与局限

优势

  • 推理时 O(1) 记忆(不需要 KV cache 随序列增长)
  • 训练时可并行(关联扫描)

局限

  • 标准形式不能实现无限状态追踪
  • 选择性门控Mamba增加了表达能力但仍有限

参考