SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.8 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

结构化状态空间对偶 (Structured State Space Duality)

2026-06-18

2026-06-18

concept

ssm

attention

duality

framework

dao-transformers-are-ssms-2024

结构化状态空间对偶 (SSD)

SSD 是 Dao & Gu (2024) 提出的统一框架，揭示 SSM 和 Attention 本质上是同一类模型的对偶形式，通过 semiseparable-matrices 这一数学桥梁连接。

框架结构

SSM (线性/循环) ←→ 半可分矩阵 ←→ Attention (二次/并行)
       ↑ 线性时间               ↑ 二次时间
       ↑ 常状态推理            ↑ 矩阵乘法优化

核心等价关系

矩阵变换视角：SSM 算子 SSM(A, B, C) 等价于矩阵乘法 Y = M_X * X
张量收缩视角：从张量收缩的双线性形式导出 SSM ↔ Attention 的对偶
半可分矩阵：M 属于经典的半可分矩阵家族——用 O(T) 参数表示、O(T) 矩阵乘法

SSD 层的双重形式

循环（线性）形式

选择性 SSM 的简化：A 从对角矩阵退化为标量乘单位矩阵
Head 维度 P 从 1 增大到 64/128（类似 Transformer head）
牺牲少许表达力换取显著的训练效率

对偶（二次）形式

Y = (L ○ QK^T) · V

L_ij = a_i × ... × a_{j+1}，a_i ∈ [0,1] 输入依赖
与 Softmax Attention 的区别：① 去掉 softmax，② 增加数据依赖的位置掩码 L

意义

SSD 使 SSM 能利用为 Transformer 开发的硬件优化（矩阵乘法单元、Tensor Parallelism、FlashAttention 式 block 算法），同时保持线性推理的优势。

参考