1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| 线性注意力 (Linear Attention) | 2026-06-18 | 2026-06-18 | concept |
|
|
线性注意力 (Linear Attention)
线性注意力是 Katharopoulos et al. (2020) 提出的注意力变体——将 Softmax 注意力转化为线性复杂度的核化形式,揭示了 "Transformers are RNNs" 的对偶关系。
核心技巧
利用矩阵乘法的结合律:
Y = softmax(QK^T) · V [O(T²) — 标准 Attention]
↓ 去掉 softmax,引入核特征映射 φ
Y = (φ(Q) φ(K)^T) · V [核化 Attention]
Y = φ(Q) · (φ(K)^T · V) [结合律重排 → O(T)]
因果版本在右侧引入因果掩码 L(下三角 1 矩阵)后,可展开为循环形式。
在 SSD 框架中的扩展
Dao & Gu (2024) 将线性注意力推广为 structured-masked-attention:
- 因果掩码 L 从全 1 推广为数据依赖的衰减掩码 (a_t ∈ [0,1])
- SMA ⇔ SSM 的对偶关系:任何有快速循环形式的核注意力必然是 SSM
变体与进展
| 变体 | 关键创新 |
|---|---|
| 原始 Linear Attention | φ = elu(x) + 1 |
| RetNet (Sun et al., 2023) | 更一般的 L 结构 |
| GateLoop (Katsch, 2023) | 门控线性注意力 |
| SMA (Dao & Gu, 2024) | 数据依赖的 L + 半可分矩阵连接 |