20260429:一些新东西

This commit is contained in:
2026-04-29 16:28:13 +08:00
parent 0b1535dfaf
commit 56c4d3ef7c
70 changed files with 2798 additions and 3 deletions

View File

@@ -0,0 +1,32 @@
# 线性注意力方法 (Linear Attention Methods)
**O(n) 复杂度的注意力替代方案**,通过核函数分解避免显式 N×N 注意力矩阵计算。
## 核心思想
将 softmax 注意力中的核函数 κ(Q, K) 分解为特征映射乘积:
$$\kappa(Q, K) \approx \phi(Q) \cdot \phi(K)^T$$
利用矩阵乘法的结合律改变计算顺序:(QK^T)V → Q(K^TV),将复杂度从 O(n²) 降至 O(n)。
## 代表方法
- **Linear Transformer** (Katharopoulos 2020): 首次提出线性注意力
- **Performer**: 使用随机特征近似 softmax
- **RetNet**: 同时支持并行训练和循环推理的统一框架
- **RWKV**: 结合 RNN 效率与 Transformer 性能
## 与稀疏注意力的对比
| 特性 | 线性注意力 | [[sparse-attention-patterns|稀疏注意力]] |
|------|-----------|-----------|
| 复杂度 | O(n) | O(n·k) |
| 全局视野 | 隐式(全局压缩) | 显式(但受限) |
| 质量 | 一般略低于 MHA | 通常优于线性 |
## 相关概念
- [[sparse-attention-patterns]] — 稀疏注意力
- [[mamba-ssm]] — 状态空间模型(线性复杂度的新兴路径)
- [[subquadratic-transformer-alternatives]] — 次二次替代综述
- [[llm-attention-survey-2026]] — 综述参考