530 B
530 B
Native Sparse Attention (NSA)
硬件对齐的原生可训练稀疏注意力,DeepSeek 2025 年提出。
核心创新
稀疏模式在训练阶段即被学习("原生"),而非仅在推理时施加;同时稀疏模式设计与硬件(GPU Tensor Core)天然对齐。
相关概念
- sparse-attention-patterns — 稀疏注意力全景
- seer-attention — 可学习稀疏对比
- deepseek-v4-million-token-context — 在实际模型中的应用
- llm-attention-survey-2026 — 综述参考