Files
myWiki/raw/papers/llm-attention-survey-2026.md

39 lines
2.5 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 大语言模型注意力机制全面分析
- **类型**: 综述论文 (Review Paper)
- **日期**: 2026年4月
- **来源**: 直接上传 PDF
- **文件名**: LLM注意力机制全面分析
- **标签**: #attention-mechanism #LLM #transformer #survey
## 摘要
注意力机制是Transformer架构的核心组件也是大语言模型LLM取得突破性进展的关键因素。本文从数学原理、机制分类、实际应用问题及解决方案等多个维度对LLM中的注意力机制进行全面系统的综述分析。首先从缩放点积注意力的数学基础出发详细推导了自注意力、多头注意力及其各种变体的数学表达。其次系统梳理了从标准多头注意力MHA到多查询注意力MQA、分组查询注意力GQA、多潜在头注意力MLA以及各类稀疏注意力和线性注意力架构的发展脉络。然后深入分析了当前注意力机制面临的核心挑战包括二次计算复杂度、KV缓存内存瓶颈、注意力熵崩溃、长上下文"Lost in the Middle"现象以及注意力漂移导致的幻觉问题。最后全面介绍了FlashAttention系列、KV缓存压缩与量化、稀疏注意力优化、架构创新及训练策略优化等前沿解决方案。
## 关键概念
- [[multi-head-attention]] (MHA) — 标准多头注意力机制
- [[multi-query-attention]] (MQA) — 共享KV头的注意力变体
- [[grouped-query-attention]] (GQA) — MHA与MQA之间的折中方案
- [[multi-head-latent-attention]] (MLA) — 低秩压缩KV缓存
- [[flash-attention]] — IO感知的注意力优化
- [[attention-entropy-collapse]] — 注意力退化与熵崩溃
- [[kv-cache-bottleneck]] — KV缓存内存瓶颈
- [[lost-in-the-middle]] — 长上下文中的信息丢失现象
- [[sparse-attention-patterns]] — 稀疏注意力模式
- [[linear-attention-methods]] — 线性注意力与替代架构
- [[rotary-position-embedding]] — 旋转位置编码
- [[attention-sinks]] — 注意力汇技术
## 结构
1. 注意力机制的数学原理
2. 主要变体MHA/MQA/GQA/MLA/稀疏/线性)
3. 挑战与问题(复杂度/缓存/熵崩溃/Lost in Middle/幻觉)
4. 优化策略FlashAttention/KV压缩/稀疏优化/架构创新/训练策略)
5. 未来展望与结论
## 参考文献
共43篇涵盖Vaswani 2017 (Attention is All You Need)、Shazeer 2019 (MQA)、Ainslie 2023 (GQA)、DeepSeek 2024 (MLA/V2)、Dao 2022 (FlashAttention)、Gu & Dao 2024 (Mamba) 等核心工作。