Files
myWiki/papers/llm-attention-survey-2026.md

3.1 KiB
Raw Permalink Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
大语言模型注意力机制全面分析 2026-05-01 2026-05-01 paper

大语言模型注意力机制全面分析

  • 类型: 综述论文
  • 日期: 2026年4月
  • 标签: #attention-mechanism #LLM #survey

中文摘要

本文从数学原理、机制分类、实际应用问题和解决方案四个维度对LLM注意力机制进行全面综述。核心覆盖multi-head-attentionmulti-query-attentiongrouped-query-attentionmulti-head-latent-attention 的发展脉络;attention-entropy-collapselost-in-the-middle和注意力漂移导致的幻觉三大核心挑战;flash-attentionkv-cache-bottlenecksparse-attention-patternslinear-attention-methods等前沿优化方案。

核心问题

LLM注意力机制面临三个结构性瓶颈

  1. 计算: O(n²) 的二次复杂度随序列长度爆炸
  2. 内存: KV缓存的线性增长限制批处理和上下文长度
  3. 质量: 注意力退化、长上下文信息丢失、注意力漂移导致幻觉

方法论贡献

  1. 统一数学框架 — 将各种注意力变体纳入核平滑Kernel Smoothing的统一形式
  2. 变体演化谱系 — 系统梳理 MHA → MQA → GQA → MLA 的演进逻辑
  3. 问题诊断体系 — 建立"二次复杂度-缓存瓶颈-熵崩溃-Lost in Middle-注意力漂移"五维问题框架
  4. 方案分类矩阵 — 覆盖硬件优化(flash-attention)、压缩(kv-cache-bottleneck)、稀疏化、架构替代四大路径

关键发现

  1. MLA标志性突破: multi-head-latent-attention通过低秩压缩将KV缓存缩减至原来的数十分之一是DeepSeek-V2/V3高效推理的关键
  2. 硬件协同设计是最大杠杆:flash-attention通过IO感知实现数量级加速远优于纯算法优化
  3. 注意力退化是一个被低估的问题:熵崩溃在深层中逐渐积累,导致注意力分布退化
  4. 替代架构崛起: mamba-ssm等状态空间模型证明线性复杂度序列建模的可行性

相关概念

外部链接