20260429:一些新东西
This commit is contained in:
50
reviews/llm-attention-survey-review-20260429.md
Normal file
50
reviews/llm-attention-survey-review-20260429.md
Normal file
@@ -0,0 +1,50 @@
|
||||
# Review: 大语言模型注意力机制全面分析
|
||||
|
||||
- **Review 日期**: 2026-04-29
|
||||
- **来源**: 用户直接上传 PDF
|
||||
|
||||
---
|
||||
|
||||
📌 **基本信息**
|
||||
- 标题:大语言模型注意力机制全面分析
|
||||
- 类型:综述论文 / Review Paper (2026年4月)
|
||||
- 领域:LLM / 注意力机制 / Transformer 架构
|
||||
- 添加时间:2026-04-29
|
||||
|
||||
🎯 **核心概念**
|
||||
|
||||
1. **MHA → MQA → GQA → MLA 演化谱系** — 从标准多头到低秩压缩的 KV 缓存优化路径。MLA 是最激进的突破:通过潜在空间压缩将 KV 缓存减少 10-20 倍。
|
||||
2. **FlashAttention** — 注意力计算效率的最大单次突破:IO感知而非纯算法优化,证明硬件协同设计是最强杠杆。
|
||||
3. **注意力熵崩溃** — 深层注意力退化的被低估问题:熵随层深递减,注意力失去区分度。
|
||||
4. **Lost in the Middle** — U形注意力分布导致中间 Token 被系统性忽略。
|
||||
5. **KV 缓存瓶颈** — 自回归推理的核心内存瓶颈,驱动了从 MQA 到 MLA 的所有结构创新。
|
||||
|
||||
🔗 **概念网络**
|
||||
|
||||
- **核心连接**:[[multi-head-attention|MHA]] ↔ [[grouped-query-attention|GQA]] ↔ [[multi-head-latent-attention|MLA]] ↔ [[kv-cache-bottleneck|KV缓存]]
|
||||
- **优化路径**:[[flash-attention]] → [[flash-attention-3]](IO优化线); [[sparse-attention-patterns]] → [[seer-attention]] → [[native-sparse-attention|NSA]](稀疏化线)
|
||||
- **问题诊断**:[[attention-entropy-collapse|熵崩溃]] → [[lost-in-the-middle]] → [[attention-sinks|注意力汇]]
|
||||
- **替代架构**:[[linear-attention-methods|线性注意力]] → [[mamba-ssm|Mamba]](非Transformer线)
|
||||
- **已有概念桥接**:衔接 [[compressed-sparse-attention|CSA]]、[[heavily-compressed-attention|HCA]]、[[hybrid-attention-architecture|混合架构]]、[[kvcache-transfer|KVCache传输]]
|
||||
- **修复断链**:创建了 19 个新概念页面,全部链接验证通过
|
||||
|
||||
📚 **Wiki 集成**
|
||||
|
||||
- 新增页面:**21 个**(1 论文 + 19 概念 + 1 原始存档)
|
||||
- Tier 1 核心:6 个(MHA, GQA, MLA, FlashAttention, 熵崩溃, KV缓存瓶颈)
|
||||
- Tier 2 基础:5 个(MQA, 稀疏注意力, 线性注意力, RoPE, Lost in Middle)
|
||||
- Tier 3 占位:8 个(注意力汇, FA3, Mamba, MoAS, DuoAttention, SeerAttn, NTK, NSA)
|
||||
- 链接密度:核心概念平均 5+ 个跨页链接
|
||||
- 网络完整:✅ 100% 无断链
|
||||
- 总规模:**96 → 116 页** (+20.8%)
|
||||
|
||||
💡 **关键洞察**
|
||||
|
||||
1. **从工程到信息论的范式转换**:注意力优化经历了三代演进——
|
||||
- Gen 1: 头共享(MQA/GQA)— 工程直觉驱动的结构简化
|
||||
- Gen 2: 低秩压缩(MLA)— 信息论原理指导的压缩
|
||||
- Gen 3: 硬件协同(FlashAttention)— 从芯片层面重定义计算
|
||||
|
||||
2. **注意力退化是被低估的隐性成本**:当前社区主要关注 KV 缓存的「显性成本」,但熵崩溃和 Lost in the Middle 等「质量退化」随着上下文增长会变得更加致命。这指向一个趋势:未来注意力设计需要同时优化计算/内存/质量三个维度,而非单一维度。
|
||||
|
||||
3. **这篇综述填补了 wiki 的一个关键空白**:此前 wiki 有 DeepSeek-V4 的 CSA/HCA/MLA 具体实现,但缺少注意力机制的全景脉络。现在形成了「综述全景 → 具体实现」的纵向知识结构。
|
||||
Reference in New Issue
Block a user