24 lines
651 B
Markdown
24 lines
651 B
Markdown
---
|
||
title: Native Sparse Attention (NSA)
|
||
created: 2025-04-15
|
||
updated: 2026-05-01
|
||
type: concept
|
||
tags: []
|
||
sources: []
|
||
---
|
||
|
||
# Native Sparse Attention (NSA)
|
||
|
||
**硬件对齐的原生可训练稀疏注意力**,DeepSeek 2025 年提出。
|
||
|
||
## 核心创新
|
||
|
||
稀疏模式在训练阶段即被学习("原生"),而非仅在推理时施加;同时稀疏模式设计与硬件(GPU Tensor Core)天然对齐。
|
||
|
||
## 相关概念
|
||
|
||
- [[sparse-attention-patterns]] — 稀疏注意力全景
|
||
- [[seer-attention]] — 可学习稀疏对比
|
||
- [[deepseek-v4-million-token-context]] — 在实际模型中的应用
|
||
- [[llm-attention-survey-2026]] — 综述参考
|