Files
myWiki/concepts/selective-state-space-models.md

1.7 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
选择性状态空间模型 (Selective State Space Models) 2026-06-18 2026-06-18 concept
ssm
mamba
selectivity
recurrence
dao-transformers-are-ssms-2024

选择性状态空间模型 (Selective SSM)

选择性 SSM 是 Mamba (Gu & Dao, 2023) 引入的关键创新:将 SSM 的参数 (A_t, B_t, C_t) 从时间不变LTI改为输入依赖(时变)

从 LTI 到 Selective

线性时不变 (LTI) SSM

h_t = A · h_{t-1} + B · x_t    [A, B, C 对所有 t 相同]
  • 等价于卷积 → 可并行训练
  • 但无法有选择地关注或忽略输入

选择性 SSM

h_t = A_t · h_{t-1} + B_t · x_t    [A_t, B_t, C_t 依赖 x_t]
  • 模型可以选择性地记住/遗忘信息
  • 在语言等信息密集型数据上显著优于 LTI
  • 只能以循环模式计算,无法并行化为卷积

在 SSD 中的演进

Mamba-2 (Dao & Gu, 2024) 对选择性 SSM 做了两个简化:

  1. A_t 退化:从对角矩阵 → 标量 × 单位矩阵(牺牲少许表达力)
  2. Head 维度扩展P 从 1 → 64/128

这些简化换取的是 ssd-algorithm 的巨大效率收益2-8x 更快)和 GPU Tensor Core 的利用。

表达能力

尽管 LTI SSM 在表达能力上不超标准 TransformerMerrill et al., 2025选择性机制通过输入依赖门控突破了此限制——这在 enhanced-state-space-models 中得到了进一步发展。

参考