Files
myWiki/concepts/linear-attention-methods.md

1.3 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
线性注意力方法 (Linear Attention Methods) 2025-04-15 2026-05-01 concept

线性注意力方法 (Linear Attention Methods)

O(n) 复杂度的注意力替代方案,通过核函数分解避免显式 N×N 注意力矩阵计算。

核心思想

将 softmax 注意力中的核函数 κ(Q, K) 分解为特征映射乘积:

\kappa(Q, K) \approx \phi(Q) \cdot \phi(K)^T

利用矩阵乘法的结合律改变计算顺序:(QK^T)V → Q(K^TV),将复杂度从 O(n²) 降至 O(n)。

代表方法

  • Linear Transformer (Katharopoulos 2020): 首次提出线性注意力
  • Performer: 使用随机特征近似 softmax
  • RetNet: 同时支持并行训练和循环推理的统一框架
  • RWKV: 结合 RNN 效率与 Transformer 性能

与稀疏注意力的对比

| 特性 | 线性注意力 | sparse-attention-patterns | |------|-----------|-----------| | 复杂度 | O(n) | O(n·k) | | 全局视野 | 隐式(全局压缩) | 显式(但受限) | | 质量 | 一般略低于 MHA | 通常优于线性 |

相关概念