4.5 KiB
4.5 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| LU-KV: Predicting Future Utility for KV Cache Eviction | 2026-06-18 | 2026-06-18 | paper |
|
|
LU-KV:基于未来效用预测的 KV Cache 驱逐框架
核心问题
大模型推理中,kv-cache 随序列长度线性增长,成为吞吐量瓶颈。现有 kv-cache-eviction 方法依赖瞬时启发式指标判断 token 重要性,忽略了不同注意力头在预测保真度上的异质性——某些 head 的瞬时注意力分数与其长期贡献严重失配。
核心洞察
LU-KV 的核心论点是:最优预算分配不应基于绝对分数,而应由边际效用(marginal-utility)驱动——即「每增加一单位预算,能保存多少长期语义信息」。这类似于经济学中的投资回报(ROI)思维:如果某个 head 的启发式指标与 oracle-importance 失配严重,继续向其分配预算的边际回报会急剧递减。
方法框架
两阶段范式
LU-KV 框架建立在 kv-cache-eviction 的两阶段分解之上:
- intra-head-eviction:在每个 head 内使用任意启发式指标 π(如 SnapKV、KeyDiff)对 token 排序
- cross-head-budget-allocation:在 head 之间分配全局缓存预算 {b_{ℓ,h}}
形式化分析
核心贡献是严格分解了驱逐损失(eviction loss):
Eviction Loss = Oracle Metric Loss(固定,受压缩率约束)
+ Optimality Gap Loss(指标 π 与 Oracle 之间的差距)
即:L(M^π) = L(M^*) + Δ(π, π*, b),其中 optimality-gap Δ 随预算和指标变化。
Oracle 重要性
oracle-importance I_{ℓ,h,j} 定义为 token j 在未来解码窗口中对输出向量的最大潜在贡献:涵盖注意力权重 A、value 向量 v、和输出投影矩阵 W_O。
全局组合优化
将 head 级预算分配形式化为 global-combinatorial-optimization:
min Σ L(M^π(b_{ℓ,h})) subject to Σ b_{ℓ,h} = B_total
该问题是非凸离散组合优化,通过 convex-hull-relaxation 求解:
- 对每个 head 的离散损失序列用 PAVA(Pool Adjacent Violators Algorithm)做保序回归
- 从凸化后的损失序列计算有效边际增益 g_{ℓ,h}(i)
- 全局贪心:每次从边际增益最大的 head 分配一个 token 位置
- 贪心解与最优 DP 解完全一致(理论保证)
离线 Profiling
offline-profiling 三阶段协议桥接理论与部署:
- 上下文生成:构造约 4K tokens 的合成叙述文本(与评测集无重叠)
- Oracle 计算:生成 M=30 个多样化查询,通过全注意力解码获取 ground-truth Oracle 重要性
- Profile 聚合:在密集的全局压缩率网格上求解每个查询的最优配置,取平均得到静态 profile Φ(π)
关键经验发现:各 head 的最优压缩率在不同任务间高度一致,使离线 profile 可迁移。
核心贡献
| 贡献 | 说明 |
|---|---|
| 问题重定义 | 将 KV 驱逐从"被动丢弃"转为"战略性投资分配" |
| optimality-gap 分解 | 严格分离 Oracle 损失和指标差距 |
| convex-hull-relaxation | PAVA 保序回归 + 贪心求解,达到 DP 最优 |
| offline-profiling | 三阶段协议,profile 跨任务可迁移 |
| 指标无关 | 适配 SnapKV、KeyDiff、CAKE、KVZip 等多种 π |
实验结果
- LongBench:80% 压缩率下,LU-KV 在所有模型(Llama-3.1-8B、Mistral-7B、Qwen2.5-32B)上优于 Uniform、PyramidKV、AdaKV 等基线
- RULER:4K–128K 扩展上下文窗口下保持鲁棒检索性能
- 兼容性:与 SnapKV、KeyDiff、CAKE、KVZip 四种 intra-head 指标配合均有效提升
- 推理开销:在线仅需查表 → 预算计算 → 驱逐三步,额外开销可忽略
相关概念
- long-horizon-utility — 长视界效用 vs 瞬时注意力分数
- heuristic-metric — 启发式指标(SnapKV、KeyDiff 等)
- marginal-utility — 边际效用驱动的分配策略
- snapkv — 基于累积注意力的 intra-head 指标
- pyramidkv — 基于信息漏斗假说的静态分配
- adkv — 基于注意熵的动态全局 Top-K 分配
- keydiff — 基于 Key 向量几何特征的指标
参考
- 原始存档:原始论文
- arXiv: https://arxiv.org/abs/2602.08585
- 发表:ICML 2026, PMLR 306
- 机构:复旦大学 + 百度百舸 AI Team