Files
myWiki/reviews/llm-attention-survey-review-20260429.md

60 lines
3.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Review: 大语言模型注意力机制全面分析"
created: 2026-05-01
updated: 2026-05-01
type: review
tags: []
sources: []
---
# Review: 大语言模型注意力机制全面分析
- **Review 日期**: 2026-04-29
- **来源**: 用户直接上传 PDF
---
📌 **基本信息**
- 标题:大语言模型注意力机制全面分析
- 类型:综述论文 / Review Paper (2026年4月)
- 领域LLM / 注意力机制 / Transformer 架构
- 添加时间2026-04-29
🎯 **核心概念**
1. **MHA → MQA → GQA → MLA 演化谱系** — 从标准多头到低秩压缩的 KV 缓存优化路径。MLA 是最激进的突破:通过潜在空间压缩将 KV 缓存减少 10-20 倍。
2. **FlashAttention** — 注意力计算效率的最大单次突破IO感知而非纯算法优化证明硬件协同设计是最强杠杆。
3. **注意力熵崩溃** — 深层注意力退化的被低估问题:熵随层深递减,注意力失去区分度。
4. **Lost in the Middle** — U形注意力分布导致中间 Token 被系统性忽略。
5. **KV 缓存瓶颈** — 自回归推理的核心内存瓶颈,驱动了从 MQA 到 MLA 的所有结构创新。
🔗 **概念网络**
- **核心连接**[[multi-head-attention|MHA]] ↔ [[grouped-query-attention|GQA]] ↔ [[multi-head-latent-attention|MLA]] ↔ [[kv-cache-bottleneck|KV缓存]]
- **优化路径**[[flash-attention]] → [[flash-attention-3]]IO优化线; [[sparse-attention-patterns]] → [[seer-attention]] → [[native-sparse-attention|NSA]](稀疏化线)
- **问题诊断**[[attention-entropy-collapse|熵崩溃]] → [[lost-in-the-middle]] → [[attention-sinks|注意力汇]]
- **替代架构**[[linear-attention-methods|线性注意力]] → [[mamba-ssm|Mamba]]非Transformer线
- **已有概念桥接**:衔接 [[compressed-sparse-attention|CSA]]、[[heavily-compressed-attention|HCA]]、[[hybrid-attention-architecture|混合架构]]、[[kvcache-transfer|KVCache传输]]
- **修复断链**:创建了 19 个新概念页面,全部链接验证通过
📚 **Wiki 集成**
- 新增页面:**21 个**1 论文 + 19 概念 + 1 原始存档)
- Tier 1 核心6 个MHA, GQA, MLA, FlashAttention, 熵崩溃, KV缓存瓶颈
- Tier 2 基础5 个MQA, 稀疏注意力, 线性注意力, RoPE, Lost in Middle
- Tier 3 占位8 个(注意力汇, FA3, Mamba, MoAS, DuoAttention, SeerAttn, NTK, NSA
- 链接密度:核心概念平均 5+ 个跨页链接
- 网络完整:✅ 100% 无断链
- 总规模:**96 → 116 页** (+20.8%)
💡 **关键洞察**
1. **从工程到信息论的范式转换**:注意力优化经历了三代演进——
- Gen 1: 头共享MQA/GQA— 工程直觉驱动的结构简化
- Gen 2: 低秩压缩MLA— 信息论原理指导的压缩
- Gen 3: 硬件协同FlashAttention— 从芯片层面重定义计算
2. **注意力退化是被低估的隐性成本**:当前社区主要关注 KV 缓存的「显性成本」,但熵崩溃和 Lost in the Middle 等「质量退化」随着上下文增长会变得更加致命。这指向一个趋势:未来注意力设计需要同时优化计算/内存/质量三个维度,而非单一维度。
3. **这篇综述填补了 wiki 的一个关键空白**:此前 wiki 有 DeepSeek-V4 的 CSA/HCA/MLA 具体实现,但缺少注意力机制的全景脉络。现在形成了「综述全景 → 具体实现」的纵向知识结构。