Files
myWiki/concepts/cross-head-budget-allocation.md

53 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Cross-Head Budget Allocation"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: ["kv-cache", "budget-allocation", "attention"]
sources: ["https://arxiv.org/abs/2602.08585"]
---
# Cross-Head Budget Allocation
## 定义
Cross-Head Budget Allocation跨头预算分配是 [[kv-cache-eviction]] 两阶段范式的**第二阶段**:在模型的所有 attention head 之间分配差异化缓存预算。与 [[intra-head-eviction]](在每个 head 内决定保留哪些 token不同它关注的是**各 head 应保留多少 token**。
## 核心挑战
不同 attention head 的信息密度高度不均匀:
- 某些 layer/head 组合对长距离依赖至关重要
- 浅层和深层 head 可能需要不同的压缩率
- 同一 [[heuristic-metric]] 在不同 head 中的可靠性不同
将预算均匀分配Uniform或基于简单先验PyramidKV是次优的。
## 方法演进
| 代别 | 方法 | 策略 |
|------|------|------|
| 第一代 | Uniform | 所有 head 等预算 |
| 第二代 | [[pyramidkv]] | 静态金字塔形(深层减少预算) |
| 第三代 | [[adkv]] | 动态全局 Top-K 基于注意熵 |
| 第四代 | LU-KV | [[global-combinatorial-optimization]] + [[marginal-utility]] |
## LU-KV 的独特视角
LU-KV 将 Cross-Head Budget Allocation 从"选择哪些 token"提升为"如何投资预算"
- 不是比较不同 head 的 token 分数绝对值(不可比)
- 而是比较不同 head 的**边际效用曲线** g_{l,h}(i)(可比)
- 这解耦了指标选择intra-head和预算分配cross-head
## 相关概念
- [[head-level-budget-allocation]] — 同义概念,侧重优化视角
- [[intra-head-eviction]] — 两阶段范式的第一阶段
- [[marginal-utility]] — 跨头比较的"通用货币"
- [[offline-profiling]] — 预计算各 head 的最优预算配置
## 参考
- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026)