--- title: "Structured State Space Models (S4)" created: 2026-06-18 updated: 2026-06-18 type: concept tags: ["ssm", "s4", "sequence-modeling", "lti"] sources: ["https://arxiv.org/abs/2312.00752"] --- # Structured State Space Models (S4) ## 定义 Structured State Space Models(S4)是 Mamba 的前身,由 Gu, Goel & Ré (2022) 提出。S4 是一类通过**结构化隐状态**实现序列建模的架构,结合了 RNN 的循环计算和 CNN 的并行卷积计算,具有线性或近线性复杂度。 ## 数学形式 S4 通过四个参数 (Δ, A, B, C) 定义序列变换: **连续形式**: ``` h'(t) = A h(t) + B x(t) y(t) = C h(t) ``` **离散化后(ZOH 规则)**: ``` A_bar = exp(Δ A) B_bar = (Δ A)^(-1) (exp(Δ A) - I) · Δ B ``` **两种计算模式**: | 模式 | 公式 | 用途 | |------|------|------| | 循环 | h_t = A_bar h_{t-1} + B_bar x_t; y_t = C h_t | 推理(单步 O(1)) | | 卷积 | K = (CB, CAB, CA²B, ...); y = x * K | 训练(并行) | ## 核心性质:线性时间不变(LTI) S4 的关键性质是 **LTI**:参数 (A, B, C, Δ) 对所有时间步**完全相同**。这带来了两个好处: - 训练可用 FFT 卷积(O(n log n)) - 推理可用循环(每步 O(1)) 但也带来了根本限制:**无法进行内容感知的选择性处理**。 ## HiPPO 矩阵 S4 使用 [[hippo|HiPPO]](High-order Polynomial Projection Operators)初始化 A 矩阵,使模型天然具备长距离记忆的归纳偏置。 ## 从 S4 到 S6 Mamba 的贡献正是**去除 LTI 约束**: - S4 的 B, C, Δ 是固定参数 - S6 的 B_t, C_t, Δ_t 是 x_t 的函数 → 获得选择性 → 牺牲卷积模式 → 需硬件感知算法补偿 ## 相关概念 - [[selective-state-space]] — S6,S4 的选择性升级版 - [[hippo]] — S4 的数学基础 - [[hardware-aware-algorithm]] — 去掉卷积后的高效补偿 - [[state-space-models]] — SSM 家族总览 - [[gu-mamba|Mamba 论文]] ## 参考 - S4 (Gu, Goel & Ré, 2022) - [[gu-mamba|Mamba]] (Gu & Dao, 2024)