20260625:很多新内容

This commit is contained in:
2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions

View File

@@ -0,0 +1,68 @@
---
title: "Structured State Space Models (S4)"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: ["ssm", "s4", "sequence-modeling", "lti"]
sources: ["https://arxiv.org/abs/2312.00752"]
---
# Structured State Space Models (S4)
## 定义
Structured State Space ModelsS4是 Mamba 的前身,由 Gu, Goel & Ré (2022) 提出。S4 是一类通过**结构化隐状态**实现序列建模的架构,结合了 RNN 的循环计算和 CNN 的并行卷积计算,具有线性或近线性复杂度。
## 数学形式
S4 通过四个参数 (Δ, A, B, C) 定义序列变换:
**连续形式**
```
h'(t) = A h(t) + B x(t)
y(t) = C h(t)
```
**离散化后ZOH 规则)**
```
A_bar = exp(Δ A)
B_bar = (Δ A)^(-1) (exp(Δ A) - I) · Δ B
```
**两种计算模式**
| 模式 | 公式 | 用途 |
|------|------|------|
| 循环 | h_t = A_bar h_{t-1} + B_bar x_t; y_t = C h_t | 推理(单步 O(1) |
| 卷积 | K = (CB, CAB, CA²B, ...); y = x * K | 训练(并行) |
## 核心性质线性时间不变LTI
S4 的关键性质是 **LTI**:参数 (A, B, C, Δ) 对所有时间步**完全相同**。这带来了两个好处:
- 训练可用 FFT 卷积O(n log n)
- 推理可用循环(每步 O(1)
但也带来了根本限制:**无法进行内容感知的选择性处理**。
## HiPPO 矩阵
S4 使用 [[hippo|HiPPO]]High-order Polynomial Projection Operators初始化 A 矩阵,使模型天然具备长距离记忆的归纳偏置。
## 从 S4 到 S6
Mamba 的贡献正是**去除 LTI 约束**
- S4 的 B, C, Δ 是固定参数
- S6 的 B_t, C_t, Δ_t 是 x_t 的函数 → 获得选择性 → 牺牲卷积模式 → 需硬件感知算法补偿
## 相关概念
- [[selective-state-space]] — S6S4 的选择性升级版
- [[hippo]] — S4 的数学基础
- [[hardware-aware-algorithm]] — 去掉卷积后的高效补偿
- [[state-space-models]] — SSM 家族总览
- [[gu-mamba|Mamba 论文]]
## 参考
- S4 (Gu, Goel & Ré, 2022)
- [[gu-mamba|Mamba]] (Gu & Dao, 2024)