1.9 KiB
1.9 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Head-Level Budget Allocation | 2026-06-18 | 2026-06-18 | concept |
|
|
Head-Level Budget Allocation
定义
Head-Level Budget Allocation(注意力头级别预算分配)是在 kv-cache-eviction 中将全局缓存预算 B_total 分配到每个注意力头 (l, h) 的策略。这是 LU-KV 框架的直接优化对象。
为什么需要
不同注意力头的"信息价值"高度异质:
- 某些头对长距离依赖敏感 — 应分配更多预算
- 某些头仅关注局部 token 模式 — 可大幅压缩
- ] [[heuristic-metric 在不同头中的预测保真度不同
关键洞察:若某个 head 的启发式指标 π 与实际 oracle-importance 对齐度低,增加其预算的边际回报递减。
分配策略对比
| 策略 | 方法 | 是否差异化 | 是否全局优化 |
|---|---|---|---|
| Uniform | 所有 head 等预算 | 否 | 否 |
| pyramidkv | 深层 head 减少预算(信息漏斗假说) | 是 | 否(静态规则) |
| adkv | 全局 Top-K 基于注意熵 | 是 | 是(但基于原始分数) |
| LU-KV | global-combinatorial-optimization + marginal-utility | 是 | 是(基于长期效用曲线) |
LU-KV 的独特贡献
LU-KV 将 Head-Level Budget Allocation 从两个层面重新定义:
- 目标函数:最小化全局 optimality-gap 而非简单最大化分数和
- 优化方法:convex-hull-relaxation → 边际效用贪心 → 近优解
- 部署方式:offline-profiling 预计算 → 在线查表
相关概念
- cross-head-budget-allocation — 同一问题的不同命名视角
- intra-head-eviction — 预算分配后,每个 head 内独立执行的 token 选择
- marginal-utility — 驱动分配决策的核心信号
参考
- tang-lukv (Tang et al., ICML 2026)