20260625:很多新内容
This commit is contained in:
52
concepts/cross-head-budget-allocation.md
Normal file
52
concepts/cross-head-budget-allocation.md
Normal file
@@ -0,0 +1,52 @@
|
||||
---
|
||||
title: "Cross-Head Budget Allocation"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: concept
|
||||
tags: ["kv-cache", "budget-allocation", "attention"]
|
||||
sources: ["https://arxiv.org/abs/2602.08585"]
|
||||
---
|
||||
|
||||
# Cross-Head Budget Allocation
|
||||
|
||||
## 定义
|
||||
|
||||
Cross-Head Budget Allocation(跨头预算分配)是 [[kv-cache-eviction]] 两阶段范式的**第二阶段**:在模型的所有 attention head 之间分配差异化缓存预算。与 [[intra-head-eviction]](在每个 head 内决定保留哪些 token)不同,它关注的是**各 head 应保留多少 token**。
|
||||
|
||||
## 核心挑战
|
||||
|
||||
不同 attention head 的信息密度高度不均匀:
|
||||
|
||||
- 某些 layer/head 组合对长距离依赖至关重要
|
||||
- 浅层和深层 head 可能需要不同的压缩率
|
||||
- 同一 [[heuristic-metric]] 在不同 head 中的可靠性不同
|
||||
|
||||
将预算均匀分配(Uniform)或基于简单先验(PyramidKV)是次优的。
|
||||
|
||||
## 方法演进
|
||||
|
||||
| 代别 | 方法 | 策略 |
|
||||
|------|------|------|
|
||||
| 第一代 | Uniform | 所有 head 等预算 |
|
||||
| 第二代 | [[pyramidkv]] | 静态金字塔形(深层减少预算) |
|
||||
| 第三代 | [[adkv]] | 动态全局 Top-K 基于注意熵 |
|
||||
| 第四代 | LU-KV | [[global-combinatorial-optimization]] + [[marginal-utility]] |
|
||||
|
||||
## LU-KV 的独特视角
|
||||
|
||||
LU-KV 将 Cross-Head Budget Allocation 从"选择哪些 token"提升为"如何投资预算":
|
||||
|
||||
- 不是比较不同 head 的 token 分数绝对值(不可比)
|
||||
- 而是比较不同 head 的**边际效用曲线** g_{l,h}(i)(可比)
|
||||
- 这解耦了指标选择(intra-head)和预算分配(cross-head)
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[head-level-budget-allocation]] — 同义概念,侧重优化视角
|
||||
- [[intra-head-eviction]] — 两阶段范式的第一阶段
|
||||
- [[marginal-utility]] — 跨头比较的"通用货币"
|
||||
- [[offline-profiling]] — 预计算各 head 的最优预算配置
|
||||
|
||||
## 参考
|
||||
|
||||
- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026)
|
||||
Reference in New Issue
Block a user