2.0 KiB
2.0 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Structured State Space Models (S4) | 2026-06-18 | 2026-06-18 | concept |
|
|
Structured State Space Models (S4)
定义
Structured State Space Models(S4)是 Mamba 的前身,由 Gu, Goel & Ré (2022) 提出。S4 是一类通过结构化隐状态实现序列建模的架构,结合了 RNN 的循环计算和 CNN 的并行卷积计算,具有线性或近线性复杂度。
数学形式
S4 通过四个参数 (Δ, A, B, C) 定义序列变换:
连续形式:
h'(t) = A h(t) + B x(t)
y(t) = C h(t)
离散化后(ZOH 规则):
A_bar = exp(Δ A)
B_bar = (Δ A)^(-1) (exp(Δ A) - I) · Δ B
两种计算模式:
| 模式 | 公式 | 用途 |
|---|---|---|
| 循环 | h_t = A_bar h_{t-1} + B_bar x_t; y_t = C h_t | 推理(单步 O(1)) |
| 卷积 | K = (CB, CAB, CA²B, ...); y = x * K | 训练(并行) |
核心性质:线性时间不变(LTI)
S4 的关键性质是 LTI:参数 (A, B, C, Δ) 对所有时间步完全相同。这带来了两个好处:
- 训练可用 FFT 卷积(O(n log n))
- 推理可用循环(每步 O(1))
但也带来了根本限制:无法进行内容感知的选择性处理。
HiPPO 矩阵
S4 使用 hippo(High-order Polynomial Projection Operators)初始化 A 矩阵,使模型天然具备长距离记忆的归纳偏置。
从 S4 到 S6
Mamba 的贡献正是去除 LTI 约束:
- S4 的 B, C, Δ 是固定参数
- S6 的 B_t, C_t, Δ_t 是 x_t 的函数 → 获得选择性 → 牺牲卷积模式 → 需硬件感知算法补偿
相关概念
- selective-state-space — S6,S4 的选择性升级版
- hippo — S4 的数学基础
- hardware-aware-algorithm — 去掉卷积后的高效补偿
- state-space-models — SSM 家族总览
- gu-mamba
参考
- S4 (Gu, Goel & Ré, 2022)
- gu-mamba (Gu & Dao, 2024)