Files
myWiki/concepts/structured-state-space-models.md

69 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Structured State Space Models (S4)"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: ["ssm", "s4", "sequence-modeling", "lti"]
sources: ["https://arxiv.org/abs/2312.00752"]
---
# Structured State Space Models (S4)
## 定义
Structured State Space ModelsS4是 Mamba 的前身,由 Gu, Goel & Ré (2022) 提出。S4 是一类通过**结构化隐状态**实现序列建模的架构,结合了 RNN 的循环计算和 CNN 的并行卷积计算,具有线性或近线性复杂度。
## 数学形式
S4 通过四个参数 (Δ, A, B, C) 定义序列变换:
**连续形式**
```
h'(t) = A h(t) + B x(t)
y(t) = C h(t)
```
**离散化后ZOH 规则)**
```
A_bar = exp(Δ A)
B_bar = (Δ A)^(-1) (exp(Δ A) - I) · Δ B
```
**两种计算模式**
| 模式 | 公式 | 用途 |
|------|------|------|
| 循环 | h_t = A_bar h_{t-1} + B_bar x_t; y_t = C h_t | 推理(单步 O(1) |
| 卷积 | K = (CB, CAB, CA²B, ...); y = x * K | 训练(并行) |
## 核心性质线性时间不变LTI
S4 的关键性质是 **LTI**:参数 (A, B, C, Δ) 对所有时间步**完全相同**。这带来了两个好处:
- 训练可用 FFT 卷积O(n log n)
- 推理可用循环(每步 O(1)
但也带来了根本限制:**无法进行内容感知的选择性处理**。
## HiPPO 矩阵
S4 使用 [[hippo|HiPPO]]High-order Polynomial Projection Operators初始化 A 矩阵,使模型天然具备长距离记忆的归纳偏置。
## 从 S4 到 S6
Mamba 的贡献正是**去除 LTI 约束**
- S4 的 B, C, Δ 是固定参数
- S6 的 B_t, C_t, Δ_t 是 x_t 的函数 → 获得选择性 → 牺牲卷积模式 → 需硬件感知算法补偿
## 相关概念
- [[selective-state-space]] — S6S4 的选择性升级版
- [[hippo]] — S4 的数学基础
- [[hardware-aware-algorithm]] — 去掉卷积后的高效补偿
- [[state-space-models]] — SSM 家族总览
- [[gu-mamba|Mamba 论文]]
## 参考
- S4 (Gu, Goel & Ré, 2022)
- [[gu-mamba|Mamba]] (Gu & Dao, 2024)