myWiki/concepts/linear-attention-methods.md

---
title: 线性注意力方法 (Linear Attention Methods)
created: 2025-04-15
updated: 2026-05-01
type: concept
tags: []
sources: []
---

# 线性注意力方法 (Linear Attention Methods)

**O(n) 复杂度的注意力替代方案**，通过核函数分解避免显式 N×N 注意力矩阵计算。

## 核心思想

将 softmax 注意力中的核函数 κ(Q, K) 分解为特征映射乘积：
$$\kappa(Q, K) \approx \phi(Q) \cdot \phi(K)^T$$

利用矩阵乘法的结合律改变计算顺序：(QK^T)V → Q(K^TV)，将复杂度从 O(n²) 降至 O(n)。

## 代表方法

- **Linear Transformer** (Katharopoulos 2020): 首次提出线性注意力
- **Performer**: 使用随机特征近似 softmax
- **RetNet**: 同时支持并行训练和循环推理的统一框架
- **RWKV**: 结合 RNN 效率与 Transformer 性能

## 与稀疏注意力的对比

| 特性 | 线性注意力 | [[sparse-attention-patterns|稀疏注意力]] |
|------|-----------|-----------|
| 复杂度 | O(n) | O(n·k) |
| 全局视野 | 隐式（全局压缩） | 显式（但受限） |
| 质量 | 一般略低于 MHA | 通常优于线性 |

## 相关概念

- [[sparse-attention-patterns]] — 稀疏注意力
- [[mamba-ssm]] — 状态空间模型（线性复杂度的新兴路径）
- [[subquadratic-transformer-alternatives]] — 次二次替代综述
- [[llm-attention-survey-2026]] — 综述参考