SSD 算法 (SSD Algorithm)

SSD 算法是 Dao & Gu (2024) 提出的混合矩阵乘法算法，利用 semiseparable-matrices 的块分解，在现代 GPU 上实现最优效率权衡。

核心思路

structured-state-space-duality 揭示了 SSM 的两种等价计算方式：

SSD 算法不走极端——在块级别做分解：

将矩阵 M 分解为 B × B 的块
  块内：使用矩阵乘法（GPU 高效）
  块间：使用循环传播（保持线性复杂度）

算法	训练	推理	GPU 利用
Mamba Selective Scan	串行	O(1) 状态	低（不用 Tensor Core）
Flashattention	O(T²)	O(T) KV cache	高
SSD Algorithm	混合	O(1) 状态	高

通过传递循环状态实现变长序列训练——无需 padding tokens——这对 SSM 是独特优势（Transformer 需要复杂的 padding 移除技术）。