SidneyZhang/myWiki

Files

Sidney Zhang 56c4d3ef7c

20260429:一些新东西

2026-04-29 16:28:13 +08:00

966 B

Raw Blame History

稀疏注意力模式 (Sparse Attention Patterns)

稀疏注意力限制每个 Token 只关注序列的子集，将复杂度从 O(n²) 降至 O(n·k) 或 O(n·log n)。

主要类型

局部窗口: 每个 Token 只看固定窗口内的邻居 → O(n·w)
全局+局部: 少数全局 Token + 局部窗口（Longformer, BigBird）
跨步注意力: 固定步长的稀疏模式（Sparse Transformer）
可学习稀疏: 动态学习注意力模式（seer-attention, native-sparse-attention）

优势与局限

优势: 内存和计算线性缩放，支持极长序列。
局限: 稀疏模式可能遗漏关键的长距离依赖；硬件利用率低（不规则访问模式）。

相关概念

linear-attention-methods — 另一种线性化路径
seer-attention — 可学习稀疏
native-sparse-attention — NSA (DeepSeek)
llm-attention-survey-2026 — 综述参考