20260625:很多新内容
This commit is contained in:
68
concepts/structured-state-space-models.md
Normal file
68
concepts/structured-state-space-models.md
Normal file
@@ -0,0 +1,68 @@
|
||||
---
|
||||
title: "Structured State Space Models (S4)"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: concept
|
||||
tags: ["ssm", "s4", "sequence-modeling", "lti"]
|
||||
sources: ["https://arxiv.org/abs/2312.00752"]
|
||||
---
|
||||
|
||||
# Structured State Space Models (S4)
|
||||
|
||||
## 定义
|
||||
|
||||
Structured State Space Models(S4)是 Mamba 的前身,由 Gu, Goel & Ré (2022) 提出。S4 是一类通过**结构化隐状态**实现序列建模的架构,结合了 RNN 的循环计算和 CNN 的并行卷积计算,具有线性或近线性复杂度。
|
||||
|
||||
## 数学形式
|
||||
|
||||
S4 通过四个参数 (Δ, A, B, C) 定义序列变换:
|
||||
|
||||
**连续形式**:
|
||||
```
|
||||
h'(t) = A h(t) + B x(t)
|
||||
y(t) = C h(t)
|
||||
```
|
||||
|
||||
**离散化后(ZOH 规则)**:
|
||||
```
|
||||
A_bar = exp(Δ A)
|
||||
B_bar = (Δ A)^(-1) (exp(Δ A) - I) · Δ B
|
||||
```
|
||||
|
||||
**两种计算模式**:
|
||||
|
||||
| 模式 | 公式 | 用途 |
|
||||
|------|------|------|
|
||||
| 循环 | h_t = A_bar h_{t-1} + B_bar x_t; y_t = C h_t | 推理(单步 O(1)) |
|
||||
| 卷积 | K = (CB, CAB, CA²B, ...); y = x * K | 训练(并行) |
|
||||
|
||||
## 核心性质:线性时间不变(LTI)
|
||||
|
||||
S4 的关键性质是 **LTI**:参数 (A, B, C, Δ) 对所有时间步**完全相同**。这带来了两个好处:
|
||||
- 训练可用 FFT 卷积(O(n log n))
|
||||
- 推理可用循环(每步 O(1))
|
||||
|
||||
但也带来了根本限制:**无法进行内容感知的选择性处理**。
|
||||
|
||||
## HiPPO 矩阵
|
||||
|
||||
S4 使用 [[hippo|HiPPO]](High-order Polynomial Projection Operators)初始化 A 矩阵,使模型天然具备长距离记忆的归纳偏置。
|
||||
|
||||
## 从 S4 到 S6
|
||||
|
||||
Mamba 的贡献正是**去除 LTI 约束**:
|
||||
- S4 的 B, C, Δ 是固定参数
|
||||
- S6 的 B_t, C_t, Δ_t 是 x_t 的函数 → 获得选择性 → 牺牲卷积模式 → 需硬件感知算法补偿
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[selective-state-space]] — S6,S4 的选择性升级版
|
||||
- [[hippo]] — S4 的数学基础
|
||||
- [[hardware-aware-algorithm]] — 去掉卷积后的高效补偿
|
||||
- [[state-space-models]] — SSM 家族总览
|
||||
- [[gu-mamba|Mamba 论文]]
|
||||
|
||||
## 参考
|
||||
|
||||
- S4 (Gu, Goel & Ré, 2022)
|
||||
- [[gu-mamba|Mamba]] (Gu & Dao, 2024)
|
||||
Reference in New Issue
Block a user