20260429:一些新东西
This commit is contained in:
38
raw/papers/llm-attention-survey-2026.md
Normal file
38
raw/papers/llm-attention-survey-2026.md
Normal file
@@ -0,0 +1,38 @@
|
||||
# 大语言模型注意力机制全面分析
|
||||
|
||||
- **类型**: 综述论文 (Review Paper)
|
||||
- **日期**: 2026年4月
|
||||
- **来源**: 直接上传 PDF
|
||||
- **文件名**: LLM注意力机制全面分析
|
||||
- **标签**: #attention-mechanism #LLM #transformer #survey
|
||||
|
||||
## 摘要
|
||||
|
||||
注意力机制是Transformer架构的核心组件,也是大语言模型(LLM)取得突破性进展的关键因素。本文从数学原理、机制分类、实际应用问题及解决方案等多个维度,对LLM中的注意力机制进行全面系统的综述分析。首先,从缩放点积注意力的数学基础出发,详细推导了自注意力、多头注意力及其各种变体的数学表达。其次,系统梳理了从标准多头注意力(MHA)到多查询注意力(MQA)、分组查询注意力(GQA)、多潜在头注意力(MLA)以及各类稀疏注意力和线性注意力架构的发展脉络。然后,深入分析了当前注意力机制面临的核心挑战,包括二次计算复杂度、KV缓存内存瓶颈、注意力熵崩溃、长上下文"Lost in the Middle"现象以及注意力漂移导致的幻觉问题。最后,全面介绍了FlashAttention系列、KV缓存压缩与量化、稀疏注意力优化、架构创新及训练策略优化等前沿解决方案。
|
||||
|
||||
## 关键概念
|
||||
|
||||
- [[multi-head-attention]] (MHA) — 标准多头注意力机制
|
||||
- [[multi-query-attention]] (MQA) — 共享KV头的注意力变体
|
||||
- [[grouped-query-attention]] (GQA) — MHA与MQA之间的折中方案
|
||||
- [[multi-head-latent-attention]] (MLA) — 低秩压缩KV缓存
|
||||
- [[flash-attention]] — IO感知的注意力优化
|
||||
- [[attention-entropy-collapse]] — 注意力退化与熵崩溃
|
||||
- [[kv-cache-bottleneck]] — KV缓存内存瓶颈
|
||||
- [[lost-in-the-middle]] — 长上下文中的信息丢失现象
|
||||
- [[sparse-attention-patterns]] — 稀疏注意力模式
|
||||
- [[linear-attention-methods]] — 线性注意力与替代架构
|
||||
- [[rotary-position-embedding]] — 旋转位置编码
|
||||
- [[attention-sinks]] — 注意力汇技术
|
||||
|
||||
## 结构
|
||||
|
||||
1. 注意力机制的数学原理
|
||||
2. 主要变体(MHA/MQA/GQA/MLA/稀疏/线性)
|
||||
3. 挑战与问题(复杂度/缓存/熵崩溃/Lost in Middle/幻觉)
|
||||
4. 优化策略(FlashAttention/KV压缩/稀疏优化/架构创新/训练策略)
|
||||
5. 未来展望与结论
|
||||
|
||||
## 参考文献
|
||||
|
||||
共43篇,涵盖Vaswani 2017 (Attention is All You Need)、Shazeer 2019 (MQA)、Ainslie 2023 (GQA)、DeepSeek 2024 (MLA/V2)、Dao 2022 (FlashAttention)、Gu & Dao 2024 (Mamba) 等核心工作。
|
||||
Reference in New Issue
Block a user