线性注意力 (Linear Attention)

线性注意力是 Katharopoulos et al. (2020) 提出的注意力变体——将 Softmax 注意力转化为线性复杂度的核化形式，揭示了 "Transformers are RNNs" 的对偶关系。

核心技巧

利用矩阵乘法的结合律：

Y = softmax(QK^T) · V          [O(T²) — 标准 Attention]
     ↓ 去掉 softmax，引入核特征映射 φ
Y = (φ(Q) φ(K)^T) · V          [核化 Attention]
Y = φ(Q) · (φ(K)^T · V)        [结合律重排 → O(T)]

因果版本在右侧引入因果掩码 L（下三角 1 矩阵）后，可展开为循环形式。

在 SSD 框架中的扩展

Dao & Gu (2024) 将线性注意力推广为 structured-masked-attention：

因果掩码 L 从全 1 推广为数据依赖的衰减掩码 (a_t ∈ [0,1])
SMA ⇔ SSM 的对偶关系：任何有快速循环形式的核注意力必然是 SSM

变体与进展

变体	关键创新
原始 Linear Attention	φ = elu(x) + 1
RetNet (Sun et al., 2023)	更一般的 L 结构
GateLoop (Katsch, 2023)	门控线性注意力
SMA (Dao & Gu, 2024)	数据依赖的 L + 半可分矩阵连接

1.6 KiB Raw Blame History Unescape Escape

线性注意力 (Linear Attention)

核心技巧

在 SSD 框架中的扩展

变体与进展

参考

1.6 KiB

Raw Blame History