线性注意力方法 (Linear Attention Methods)

O(n) 复杂度的注意力替代方案，通过核函数分解避免显式 N×N 注意力矩阵计算。

核心思想

将 softmax 注意力中的核函数 κ(Q, K) 分解为特征映射乘积：

\kappa(Q, K) \approx \phi(Q) \cdot \phi(K)^T

利用矩阵乘法的结合律改变计算顺序：(QK^T)V → Q(K^TV)，将复杂度从 O(n²) 降至 O(n)。

代表方法

Linear Transformer (Katharopoulos 2020): 首次提出线性注意力
Performer: 使用随机特征近似 softmax
RetNet: 同时支持并行训练和循环推理的统一框架
RWKV: 结合 RNN 效率与 Transformer 性能

与稀疏注意力的对比

| 特性 | 线性注意力 | sparse-attention-patterns | |------|-----------|-----------| | 复杂度 | O(n) | O(n·k) | | 全局视野 | 隐式（全局压缩） | 显式（但受限） | | 质量 | 一般略低于 MHA | 通常优于线性 |

1.3 KiB Raw Blame History Unescape Escape

线性注意力方法 (Linear Attention Methods)

核心思想

代表方法

与稀疏注意力的对比

相关概念

1.3 KiB

Raw Blame History