SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

3.1 KiB

Raw Permalink Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

大语言模型注意力机制全面分析

2026-05-01

2026-05-01

paper

大语言模型注意力机制全面分析

类型: 综述论文
日期: 2026年4月
标签: #attention-mechanism #LLM #survey

中文摘要

本文从数学原理、机制分类、实际应用问题和解决方案四个维度，对LLM注意力机制进行全面综述。核心覆盖：multi-head-attention → multi-query-attention → grouped-query-attention → multi-head-latent-attention 的发展脉络；attention-entropy-collapse、lost-in-the-middle和注意力漂移导致的幻觉三大核心挑战；flash-attention、kv-cache-bottleneck、sparse-attention-patterns、linear-attention-methods等前沿优化方案。

核心问题

LLM注意力机制面临三个结构性瓶颈：

计算: O(n²) 的二次复杂度随序列长度爆炸
内存: KV缓存的线性增长限制批处理和上下文长度
质量: 注意力退化、长上下文信息丢失、注意力漂移导致幻觉

方法论贡献

统一数学框架 — 将各种注意力变体纳入核平滑（Kernel Smoothing）的统一形式
变体演化谱系 — 系统梳理 MHA → MQA → GQA → MLA 的演进逻辑
问题诊断体系 — 建立"二次复杂度-缓存瓶颈-熵崩溃-Lost in Middle-注意力漂移"五维问题框架
方案分类矩阵 — 覆盖硬件优化（flash-attention）、压缩（kv-cache-bottleneck）、稀疏化、架构替代四大路径

关键发现

MLA标志性突破: multi-head-latent-attention通过低秩压缩将KV缓存缩减至原来的数十分之一，是DeepSeek-V2/V3高效推理的关键
硬件协同设计是最大杠杆：flash-attention通过IO感知实现数量级加速，远优于纯算法优化
注意力退化是一个被低估的问题：熵崩溃在深层中逐渐积累，导致注意力分布退化
替代架构崛起: mamba-ssm等状态空间模型证明线性复杂度序列建模的可行性

相关概念

multi-head-attention — 标准多头注意力 (MHA)
multi-query-attention — 多查询注意力 (MQA)
grouped-query-attention — 分组查询注意力 (GQA)
multi-head-latent-attention — 多潜在头注意力 (MLA)
flash-attention — IO感知注意力优化
attention-entropy-collapse — 注意力熵崩溃
kv-cache-bottleneck — KV缓存瓶颈
lost-in-the-middle — 长上下文信息丢失
sparse-attention-patterns — 稀疏注意力
linear-attention-methods — 线性注意力
rotary-position-embedding — 旋转位置编码
attention-sinks — 注意力汇

外部链接

deepseek-v4-million-token-context — DeepSeek-V4（MLA + CSA + HCA 的实际应用）
subquadratic-transformer-alternatives — 次二次复杂度替代架构综述
hybrid-attention-architecture — DeepSeek-V4的CSA/HCA混合注意力