Files
myWiki/concepts/cross-head-budget-allocation.md

1.9 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Cross-Head Budget Allocation 2026-06-18 2026-06-18 concept
kv-cache
budget-allocation
attention
https://arxiv.org/abs/2602.08585

Cross-Head Budget Allocation

定义

Cross-Head Budget Allocation跨头预算分配kv-cache-eviction 两阶段范式的第二阶段:在模型的所有 attention head 之间分配差异化缓存预算。与 intra-head-eviction(在每个 head 内决定保留哪些 token不同它关注的是各 head 应保留多少 token

核心挑战

不同 attention head 的信息密度高度不均匀:

  • 某些 layer/head 组合对长距离依赖至关重要
  • 浅层和深层 head 可能需要不同的压缩率
  • 同一 heuristic-metric 在不同 head 中的可靠性不同

将预算均匀分配Uniform或基于简单先验PyramidKV是次优的。

方法演进

代别 方法 策略
第一代 Uniform 所有 head 等预算
第二代 pyramidkv 静态金字塔形(深层减少预算)
第三代 adkv 动态全局 Top-K 基于注意熵
第四代 LU-KV global-combinatorial-optimization + marginal-utility

LU-KV 的独特视角

LU-KV 将 Cross-Head Budget Allocation 从"选择哪些 token"提升为"如何投资预算"

  • 不是比较不同 head 的 token 分数绝对值(不可比)
  • 而是比较不同 head 的边际效用曲线 g_{l,h}(i)(可比)
  • 这解耦了指标选择intra-head和预算分配cross-head

相关概念

参考