20260429:一些新东西

2026-04-29 16:28:13 +08:00
parent 0b1535dfaf
commit 56c4d3ef7c
70 changed files with 2798 additions and 3 deletions
--- a/concepts/linear-attention-methods.md
+++ b/concepts/linear-attention-methods.md
@@ -0,0 +1,32 @@
+# 线性注意力方法 (Linear Attention Methods)
+
+**O(n) 复杂度的注意力替代方案**，通过核函数分解避免显式 N×N 注意力矩阵计算。
+
+## 核心思想
+
+将 softmax 注意力中的核函数 κ(Q, K) 分解为特征映射乘积：
+$$\kappa(Q, K) \approx \phi(Q) \cdot \phi(K)^T$$
+
+利用矩阵乘法的结合律改变计算顺序：(QK^T)V → Q(K^TV)，将复杂度从 O(n²) 降至 O(n)。
+
+## 代表方法
+
+- **Linear Transformer** (Katharopoulos 2020): 首次提出线性注意力
+- **Performer**: 使用随机特征近似 softmax
+- **RetNet**: 同时支持并行训练和循环推理的统一框架
+- **RWKV**: 结合 RNN 效率与 Transformer 性能
+
+## 与稀疏注意力的对比
+
+| 特性 | 线性注意力 | [[sparse-attention-patterns|稀疏注意力]] |
+|------|-----------|-----------|
+| 复杂度 | O(n) | O(n·k) |
+| 全局视野 | 隐式（全局压缩） | 显式（但受限） |
+| 质量 | 一般略低于 MHA | 通常优于线性 |
+
+## 相关概念
+
+- [[sparse-attention-patterns]] — 稀疏注意力
+- [[mamba-ssm]] — 状态空间模型（线性复杂度的新兴路径）
+- [[subquadratic-transformer-alternatives]] — 次二次替代综述
+- [[llm-attention-survey-2026]] — 综述参考