Review: 大语言模型注意力机制全面分析

📌 基本信息

🎯 核心概念

MHA → MQA → GQA → MLA 演化谱系 — 从标准多头到低秩压缩的 KV 缓存优化路径。MLA 是最激进的突破：通过潜在空间压缩将 KV 缓存减少 10-20 倍。
FlashAttention — 注意力计算效率的最大单次突破：IO感知而非纯算法优化，证明硬件协同设计是最强杠杆。
注意力熵崩溃 — 深层注意力退化的被低估问题：熵随层深递减，注意力失去区分度。
Lost in the Middle — U形注意力分布导致中间 Token 被系统性忽略。
KV 缓存瓶颈 — 自回归推理的核心内存瓶颈，驱动了从 MQA 到 MLA 的所有结构创新。

🔗 概念网络

核心连接：multi-head-attention ↔ grouped-query-attention ↔ multi-head-latent-attention ↔ kv-cache-bottleneck
优化路径：flash-attention → flash-attention-3（IO优化线）; sparse-attention-patterns → seer-attention → native-sparse-attention（稀疏化线）
问题诊断：attention-entropy-collapse → lost-in-the-middle → attention-sinks
替代架构：linear-attention-methods → mamba-ssm（非Transformer线）
已有概念桥接：衔接 compressed-sparse-attention、heavily-compressed-attention、hybrid-attention-architecture、kvcache-transfer
修复断链：创建了 19 个新概念页面，全部链接验证通过

📚 Wiki 集成

💡 关键洞察

从工程到信息论的范式转换：注意力优化经历了三代演进——
- Gen 1: 头共享（MQA/GQA）— 工程直觉驱动的结构简化
- Gen 2: 低秩压缩（MLA）— 信息论原理指导的压缩
- Gen 3: 硬件协同（FlashAttention）— 从芯片层面重定义计算
注意力退化是被低估的隐性成本：当前社区主要关注 KV 缓存的「显性成本」，但熵崩溃和 Lost in the Middle 等「质量退化」随着上下文增长会变得更加致命。这指向一个趋势：未来注意力设计需要同时优化计算/内存/质量三个维度，而非单一维度。
这篇综述填补了 wiki 的一个关键空白：此前 wiki 有 DeepSeek-V4 的 CSA/HCA/MLA 具体实现，但缺少注意力机制的全景脉络。现在形成了「综述全景 → 具体实现」的纵向知识结构。