Files
myWiki/reviews/llm-attention-survey-review-20260429.md

3.4 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Review: 大语言模型注意力机制全面分析 2026-05-01 2026-05-01 review

Review: 大语言模型注意力机制全面分析

  • Review 日期: 2026-04-29
  • 来源: 用户直接上传 PDF

📌 基本信息

  • 标题:大语言模型注意力机制全面分析
  • 类型:综述论文 / Review Paper (2026年4月)
  • 领域LLM / 注意力机制 / Transformer 架构
  • 添加时间2026-04-29

🎯 核心概念

  1. MHA → MQA → GQA → MLA 演化谱系 — 从标准多头到低秩压缩的 KV 缓存优化路径。MLA 是最激进的突破:通过潜在空间压缩将 KV 缓存减少 10-20 倍。
  2. FlashAttention — 注意力计算效率的最大单次突破IO感知而非纯算法优化证明硬件协同设计是最强杠杆。
  3. 注意力熵崩溃 — 深层注意力退化的被低估问题:熵随层深递减,注意力失去区分度。
  4. Lost in the Middle — U形注意力分布导致中间 Token 被系统性忽略。
  5. KV 缓存瓶颈 — 自回归推理的核心内存瓶颈,驱动了从 MQA 到 MLA 的所有结构创新。

🔗 概念网络

📚 Wiki 集成

  • 新增页面:21 个1 论文 + 19 概念 + 1 原始存档)
  • Tier 1 核心6 个MHA, GQA, MLA, FlashAttention, 熵崩溃, KV缓存瓶颈
  • Tier 2 基础5 个MQA, 稀疏注意力, 线性注意力, RoPE, Lost in Middle
  • Tier 3 占位8 个(注意力汇, FA3, Mamba, MoAS, DuoAttention, SeerAttn, NTK, NSA
  • 链接密度:核心概念平均 5+ 个跨页链接
  • 网络完整: 100% 无断链
  • 总规模:96 → 116 页 (+20.8%)

💡 关键洞察

  1. 从工程到信息论的范式转换:注意力优化经历了三代演进——

    • Gen 1: 头共享MQA/GQA— 工程直觉驱动的结构简化
    • Gen 2: 低秩压缩MLA— 信息论原理指导的压缩
    • Gen 3: 硬件协同FlashAttention— 从芯片层面重定义计算
  2. 注意力退化是被低估的隐性成本:当前社区主要关注 KV 缓存的「显性成本」,但熵崩溃和 Lost in the Middle 等「质量退化」随着上下文增长会变得更加致命。这指向一个趋势:未来注意力设计需要同时优化计算/内存/质量三个维度,而非单一维度。

  3. 这篇综述填补了 wiki 的一个关键空白:此前 wiki 有 DeepSeek-V4 的 CSA/HCA/MLA 具体实现,但缺少注意力机制的全景脉络。现在形成了「综述全景 → 具体实现」的纵向知识结构。