SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.4 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Multi-Head Attention (MHA)

2025-04-15

2026-05-01

concept

Multi-Head Attention (MHA)

标准多头注意力，Transformer 架构的核心注意力变体。

定义

MHA 将输入经过 h 个并行的注意力头处理，每个头学习不同的表示子空间，最后拼接所有头的输出并通过线性变换融合。核心操作：

\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h) W^O \text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)

关键特性

并行子空间: h 个注意力头各自学习不同的注意模式（语法、语义、位置等）
参数量: 每个头维度 d_k = d_v = d/h，总参数量与单头一致
计算复杂度: O(n² · d)，n 为序列长度，d 为模型维度

优势与局限

优势: 表达能力最强，每个头独立学习不同的 Token 关系模式。
局限: KV 缓存为 n × d，长序列推理时内存开销极大；每个 Token 需要计算与所有 Token 的注意力。

相关概念

multi-query-attention — 共享 KV 头以减少缓存
grouped-query-attention — MHA 与 MQA 之间的折中
multi-head-latent-attention — 低秩压缩的极致优化
attention-entropy-collapse — MHA 中深层退化问题
llm-attention-survey-2026 — 综述参考