1.8 KiB
1.8 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 结构化状态空间对偶 (Structured State Space Duality) | 2026-06-18 | 2026-06-18 | concept |
|
|
结构化状态空间对偶 (SSD)
SSD 是 Dao & Gu (2024) 提出的统一框架,揭示 SSM 和 Attention 本质上是同一类模型的对偶形式,通过 semiseparable-matrices 这一数学桥梁连接。
框架结构
SSM (线性/循环) ←→ 半可分矩阵 ←→ Attention (二次/并行)
↑ 线性时间 ↑ 二次时间
↑ 常状态推理 ↑ 矩阵乘法优化
核心等价关系
- 矩阵变换视角:SSM 算子
SSM(A, B, C)等价于矩阵乘法Y = M_X * X - 张量收缩视角:从张量收缩的双线性形式导出 SSM ↔ Attention 的对偶
- 半可分矩阵:M 属于经典的半可分矩阵家族——用 O(T) 参数表示、O(T) 矩阵乘法
SSD 层的双重形式
循环(线性)形式
- 选择性 SSM 的简化:A 从对角矩阵退化为标量乘单位矩阵
- Head 维度 P 从 1 增大到 64/128(类似 Transformer head)
- 牺牲少许表达力换取显著的训练效率
对偶(二次)形式
Y = (L ○ QK^T) · V
- L_ij = a_i × ... × a_{j+1},a_i ∈ [0,1] 输入依赖
- 与 Softmax Attention 的区别:① 去掉 softmax,② 增加数据依赖的位置掩码 L
意义
SSD 使 SSM 能利用为 Transformer 开发的硬件优化(矩阵乘法单元、Tensor Parallelism、FlashAttention 式 block 算法),同时保持线性推理的优势。