1.9 KiB
1.9 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Cross-Head Budget Allocation | 2026-06-18 | 2026-06-18 | concept |
|
|
Cross-Head Budget Allocation
定义
Cross-Head Budget Allocation(跨头预算分配)是 kv-cache-eviction 两阶段范式的第二阶段:在模型的所有 attention head 之间分配差异化缓存预算。与 intra-head-eviction(在每个 head 内决定保留哪些 token)不同,它关注的是各 head 应保留多少 token。
核心挑战
不同 attention head 的信息密度高度不均匀:
- 某些 layer/head 组合对长距离依赖至关重要
- 浅层和深层 head 可能需要不同的压缩率
- 同一 heuristic-metric 在不同 head 中的可靠性不同
将预算均匀分配(Uniform)或基于简单先验(PyramidKV)是次优的。
方法演进
| 代别 | 方法 | 策略 |
|---|---|---|
| 第一代 | Uniform | 所有 head 等预算 |
| 第二代 | pyramidkv | 静态金字塔形(深层减少预算) |
| 第三代 | adkv | 动态全局 Top-K 基于注意熵 |
| 第四代 | LU-KV | global-combinatorial-optimization + marginal-utility |
LU-KV 的独特视角
LU-KV 将 Cross-Head Budget Allocation 从"选择哪些 token"提升为"如何投资预算":
- 不是比较不同 head 的 token 分数绝对值(不可比)
- 而是比较不同 head 的边际效用曲线 g_{l,h}(i)(可比)
- 这解耦了指标选择(intra-head)和预算分配(cross-head)
相关概念
- head-level-budget-allocation — 同义概念,侧重优化视角
- intra-head-eviction — 两阶段范式的第一阶段
- marginal-utility — 跨头比较的"通用货币"
- offline-profiling — 预计算各 head 的最优预算配置
参考
- tang-lukv (Tang et al., ICML 2026)