20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/cross-head-budget-allocation.md
+++ b/concepts/cross-head-budget-allocation.md
@@ -0,0 +1,52 @@
+---
+title: "Cross-Head Budget Allocation"
+created: 2026-06-18
+updated: 2026-06-18
+type: concept
+tags: ["kv-cache", "budget-allocation", "attention"]
+sources: ["https://arxiv.org/abs/2602.08585"]
+---
+
+# Cross-Head Budget Allocation
+
+## 定义
+
+Cross-Head Budget Allocation（跨头预算分配）是 [[kv-cache-eviction]] 两阶段范式的**第二阶段**：在模型的所有 attention head 之间分配差异化缓存预算。与 [[intra-head-eviction]]（在每个 head 内决定保留哪些 token）不同，它关注的是**各 head 应保留多少 token**。
+
+## 核心挑战
+
+不同 attention head 的信息密度高度不均匀：
+
+- 某些 layer/head 组合对长距离依赖至关重要
+- 浅层和深层 head 可能需要不同的压缩率
+- 同一 [[heuristic-metric]] 在不同 head 中的可靠性不同
+
+将预算均匀分配（Uniform）或基于简单先验（PyramidKV）是次优的。
+
+## 方法演进
+
+| 代别 | 方法 | 策略 |
+|------|------|------|
+| 第一代 | Uniform | 所有 head 等预算 |
+| 第二代 | [[pyramidkv]] | 静态金字塔形（深层减少预算） |
+| 第三代 | [[adkv]] | 动态全局 Top-K 基于注意熵 |
+| 第四代 | LU-KV | [[global-combinatorial-optimization]] + [[marginal-utility]] |
+
+## LU-KV 的独特视角
+
+LU-KV 将 Cross-Head Budget Allocation 从"选择哪些 token"提升为"如何投资预算"：
+
+- 不是比较不同 head 的 token 分数绝对值（不可比）
+- 而是比较不同 head 的**边际效用曲线** g_{l,h}(i)（可比）
+- 这解耦了指标选择（intra-head）和预算分配（cross-head）
+
+## 相关概念
+
+- [[head-level-budget-allocation]] — 同义概念，侧重优化视角
+- [[intra-head-eviction]] — 两阶段范式的第一阶段
+- [[marginal-utility]] — 跨头比较的"通用货币"
+- [[offline-profiling]] — 预计算各 head 的最优预算配置
+
+## 参考
+
+- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026)