20260429:一些新东西

2026-04-29 16:28:13 +08:00
parent 0b1535dfaf
commit 56c4d3ef7c
70 changed files with 2798 additions and 3 deletions
--- a/concepts/grouped-query-attention.md
+++ b/concepts/grouped-query-attention.md
@@ -0,0 +1,25 @@
+# Grouped-Query Attention (GQA)
+
+**分组查询注意力**，在 MHA 和 MQA 之间的折中方案，由 Ainslie 等 2023 年提出。
+
+## 定义
+
+GQA 将 Q 头分为 G 组，每组共享一个 KV 头。标准 MHA 是 G = h（每组1个Q头），MQA 是 G = 1（所有Q头共享一个KV头）。
+
+## 核心洞见
+
+并非所有注意力都需要独立的 KV 头——GQA 证明分组共享 KV 可以在几乎不损失质量的前提下大幅减少 KV 缓存。这也是 Llama 3 系列采用的设计。
+
+## 关键参数
+
+- **组数 G**: G = h → MHA；G = 1 → MQA；1 < G < h → GQA
+- **缓存减少**: KV 缓存缩减为 MHA 的 G/h，典型的 8 分组可将缓存减少 87.5%
+- **质量**: G = 4~8 时质量与 MHA 接近
+
+## 相关概念
+
+- [[multi-head-attention]] — 标准 MHA (G = h)
+- [[multi-query-attention]] — 极端 MQA (G = 1)
+- [[multi-head-latent-attention]] — 更激进的 MLA 压缩
+- [[kv-cache-bottleneck]] — 缓存瓶颈驱动 GQA 设计
+- [[llm-attention-survey-2026]] — 综述参考