SidneyZhang/myWiki

Files

Sidney Zhang 56c4d3ef7c

20260429:一些新东西

2026-04-29 16:28:13 +08:00

530 B

Raw Blame History

Native Sparse Attention (NSA)

硬件对齐的原生可训练稀疏注意力，DeepSeek 2025 年提出。

核心创新

稀疏模式在训练阶段即被学习（"原生"），而非仅在推理时施加；同时稀疏模式设计与硬件（GPU Tensor Core）天然对齐。

相关概念

sparse-attention-patterns — 稀疏注意力全景
seer-attention — 可学习稀疏对比
deepseek-v4-million-token-context — 在实际模型中的应用
llm-attention-survey-2026 — 综述参考