# Native Sparse Attention (NSA) **硬件对齐的原生可训练稀疏注意力**,DeepSeek 2025 年提出。 ## 核心创新 稀疏模式在训练阶段即被学习("原生"),而非仅在推理时施加;同时稀疏模式设计与硬件(GPU Tensor Core)天然对齐。 ## 相关概念 - [[sparse-attention-patterns]] — 稀疏注意力全景 - [[seer-attention]] — 可学习稀疏对比 - [[deepseek-v4-million-token-context]] — 在实际模型中的应用 - [[llm-attention-survey-2026]] — 综述参考