# Native Sparse Attention (NSA)

**硬件对齐的原生可训练稀疏注意力**，DeepSeek 2025 年提出。

## 核心创新

稀疏模式在训练阶段即被学习（"原生"），而非仅在推理时施加；同时稀疏模式设计与硬件（GPU Tensor Core）天然对齐。

## 相关概念

- [[sparse-attention-patterns]] — 稀疏注意力全景
- [[seer-attention]] — 可学习稀疏对比
- [[deepseek-v4-million-token-context]] — 在实际模型中的应用
- [[llm-attention-survey-2026]] — 综述参考