Files
myWiki/concepts/structured-state-space-models.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Structured State Space Models (S4) 2026-06-18 2026-06-18 concept
ssm
s4
sequence-modeling
lti
https://arxiv.org/abs/2312.00752

Structured State Space Models (S4)

定义

Structured State Space ModelsS4是 Mamba 的前身,由 Gu, Goel & Ré (2022) 提出。S4 是一类通过结构化隐状态实现序列建模的架构,结合了 RNN 的循环计算和 CNN 的并行卷积计算,具有线性或近线性复杂度。

数学形式

S4 通过四个参数 (Δ, A, B, C) 定义序列变换:

连续形式

h'(t) = A h(t) + B x(t)
y(t) = C h(t)

离散化后ZOH 规则)

A_bar = exp(Δ A)
B_bar = (Δ A)^(-1) (exp(Δ A) - I) · Δ B

两种计算模式

模式 公式 用途
循环 h_t = A_bar h_{t-1} + B_bar x_t; y_t = C h_t 推理(单步 O(1)
卷积 K = (CB, CAB, CA²B, ...); y = x * K 训练(并行)

核心性质线性时间不变LTI

S4 的关键性质是 LTI:参数 (A, B, C, Δ) 对所有时间步完全相同。这带来了两个好处:

  • 训练可用 FFT 卷积O(n log n)
  • 推理可用循环(每步 O(1)

但也带来了根本限制:无法进行内容感知的选择性处理

HiPPO 矩阵

S4 使用 hippoHigh-order Polynomial Projection Operators初始化 A 矩阵,使模型天然具备长距离记忆的归纳偏置。

从 S4 到 S6

Mamba 的贡献正是去除 LTI 约束

  • S4 的 B, C, Δ 是固定参数
  • S6 的 B_t, C_t, Δ_t 是 x_t 的函数 → 获得选择性 → 牺牲卷积模式 → 需硬件感知算法补偿

相关概念

参考

  • S4 (Gu, Goel & Ré, 2022)
  • gu-mamba (Gu & Dao, 2024)