--- title: "半可分矩阵 (Semiseparable Matrices)" created: 2026-06-18 updated: 2026-06-18 type: concept tags: [mathematics, structured-matrices, ssm, attention] sources: - dao-transformers-are-ssms-2024 --- # 半可分矩阵 (Semiseparable Matrices) 半可分矩阵是 Dao & Gu (2024) 用来**桥接 SSM 和 Attention** 的结构化矩阵家族。这是经典数值线性代数中的概念,首次被引入深度学习。 ## 定义 矩阵 M ∈ R^(T×T) 是半可分的,如果: - **子二次参数**:可以用 O(T) 而非 O(T²) 参数表示 - **快速乘法**:存在 O(T) 的矩阵-向量乘法算法 ## 与 SSM 的等价 核心定理:**SSM 算子等价于半可分矩阵乘法** ``` Y = SSM(A, B, C)(X) ⇔ Y = M · X ``` 其中 M 的结构由 (A_t, B_t, C_t) 参数化: - M_ij = C_i^T A_{i-1} ... A_{j+1} B_j(当 i ≥ j) - M_ij = 0(当 i < j,因果性) ## 为什么是"桥梁" | 视角 | 计算方式 | 对应的数据结构 | |------|:--:|------| | SSM(循环) | 逐步扫描 | M 的 O(T) 压缩表示 | | Attention(对偶) | M 的显式乘法 | M 的 O(T²) 展开形式 | ## SSD 算法的关键 [[ssd-algorithm|SSD 算法]] 利用**块分解**在半可分矩阵上实现最优权衡——不完全是 O(T) 也不完全是 O(T²),而是在现代硬件(GPU Tensor Core)上取最优的中间粒度。 ## 参考 - [[structured-state-space-duality|SSD]] - [[ssd-algorithm|SSD 算法]] - [[structured-masked-attention|SMA]] - [[dao-transformers-are-ssms-2024|论文]]