Cross-Head Budget Allocation

定义

Cross-Head Budget Allocation（跨头预算分配）是 kv-cache-eviction 两阶段范式的第二阶段：在模型的所有 attention head 之间分配差异化缓存预算。与 intra-head-eviction（在每个 head 内决定保留哪些 token）不同，它关注的是各 head 应保留多少 token。

核心挑战

不同 attention head 的信息密度高度不均匀：

某些 layer/head 组合对长距离依赖至关重要
浅层和深层 head 可能需要不同的压缩率
同一 heuristic-metric 在不同 head 中的可靠性不同

将预算均匀分配（Uniform）或基于简单先验（PyramidKV）是次优的。

方法演进

代别	方法	策略
第一代	Uniform	所有 head 等预算
第二代	pyramidkv	静态金字塔形（深层减少预算）
第三代	adkv	动态全局 Top-K 基于注意熵
第四代	LU-KV	global-combinatorial-optimization + marginal-utility

LU-KV 的独特视角

LU-KV 将 Cross-Head Budget Allocation 从"选择哪些 token"提升为"如何投资预算"：

不是比较不同 head 的 token 分数绝对值（不可比）
而是比较不同 head 的边际效用曲线 g_{l,h}(i)（可比）
这解耦了指标选择（intra-head）和预算分配（cross-head）

参考

tang-lukv (Tang et al., ICML 2026)

1.9 KiB Raw Blame History Unescape Escape

Cross-Head Budget Allocation

定义

核心挑战

方法演进

LU-KV 的独特视角

相关概念

参考

1.9 KiB

Raw Blame History