20260429:一些新东西
This commit is contained in:
51
papers/llm-attention-survey-2026.md
Normal file
51
papers/llm-attention-survey-2026.md
Normal file
@@ -0,0 +1,51 @@
|
||||
# 大语言模型注意力机制全面分析
|
||||
|
||||
- **类型**: 综述论文
|
||||
- **日期**: 2026年4月
|
||||
- **标签**: #attention-mechanism #LLM #survey
|
||||
|
||||
## 中文摘要
|
||||
|
||||
本文从数学原理、机制分类、实际应用问题和解决方案四个维度,对LLM注意力机制进行全面综述。核心覆盖:[[multi-head-attention|MHA]] → [[multi-query-attention|MQA]] → [[grouped-query-attention|GQA]] → [[multi-head-latent-attention|MLA]] 的发展脉络;[[attention-entropy-collapse|注意力熵崩溃]]、[[lost-in-the-middle|Lost in the Middle]]和注意力漂移导致的幻觉三大核心挑战;[[flash-attention|FlashAttention]]、[[kv-cache-bottleneck|KV缓存压缩]]、[[sparse-attention-patterns|稀疏注意力]]、[[linear-attention-methods|线性注意力]]等前沿优化方案。
|
||||
|
||||
## 核心问题
|
||||
|
||||
LLM注意力机制面临三个结构性瓶颈:
|
||||
1. **计算**: O(n²) 的二次复杂度随序列长度爆炸
|
||||
2. **内存**: KV缓存的线性增长限制批处理和上下文长度
|
||||
3. **质量**: 注意力退化、长上下文信息丢失、注意力漂移导致幻觉
|
||||
|
||||
## 方法论贡献
|
||||
|
||||
1. **统一数学框架** — 将各种注意力变体纳入核平滑(Kernel Smoothing)的统一形式
|
||||
2. **变体演化谱系** — 系统梳理 MHA → MQA → GQA → MLA 的演进逻辑
|
||||
3. **问题诊断体系** — 建立"二次复杂度-缓存瓶颈-熵崩溃-Lost in Middle-注意力漂移"五维问题框架
|
||||
4. **方案分类矩阵** — 覆盖硬件优化([[flash-attention]])、压缩([[kv-cache-bottleneck|KV量化]])、稀疏化、架构替代四大路径
|
||||
|
||||
## 关键发现
|
||||
|
||||
1. **MLA标志性突破**: [[multi-head-latent-attention|MLA]]通过低秩压缩将KV缓存缩减至原来的数十分之一,是DeepSeek-V2/V3高效推理的关键
|
||||
2. **硬件协同设计**是最大杠杆:[[flash-attention|FlashAttention]]通过IO感知实现数量级加速,远优于纯算法优化
|
||||
3. **注意力退化**是一个被低估的问题:熵崩溃在深层中逐渐积累,导致注意力分布退化
|
||||
4. **替代架构崛起**: [[mamba-ssm|Mamba]]等状态空间模型证明线性复杂度序列建模的可行性
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[multi-head-attention]] — 标准多头注意力 (MHA)
|
||||
- [[multi-query-attention]] — 多查询注意力 (MQA)
|
||||
- [[grouped-query-attention]] — 分组查询注意力 (GQA)
|
||||
- [[multi-head-latent-attention]] — 多潜在头注意力 (MLA)
|
||||
- [[flash-attention]] — IO感知注意力优化
|
||||
- [[attention-entropy-collapse]] — 注意力熵崩溃
|
||||
- [[kv-cache-bottleneck]] — KV缓存瓶颈
|
||||
- [[lost-in-the-middle]] — 长上下文信息丢失
|
||||
- [[sparse-attention-patterns]] — 稀疏注意力
|
||||
- [[linear-attention-methods]] — 线性注意力
|
||||
- [[rotary-position-embedding]] — 旋转位置编码
|
||||
- [[attention-sinks]] — 注意力汇
|
||||
|
||||
## 外部链接
|
||||
|
||||
- [[deepseek-v4-million-token-context]] — DeepSeek-V4(MLA + CSA + HCA 的实际应用)
|
||||
- [[subquadratic-transformer-alternatives]] — 次二次复杂度替代架构综述
|
||||
- [[hybrid-attention-architecture]] — DeepSeek-V4的CSA/HCA混合注意力
|
||||
Reference in New Issue
Block a user