1.9 KiB
1.9 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| LU-KV (Long-horizon Utility KV) | 2026-06-18 | 2026-06-18 | concept |
|
|
LU-KV
定义
LU-KV(Long-horizon Utility KV)是 Tang et al. (ICML 2026) 提出的 KV Cache 驱逐框架。核心创新是将 head 级别预算分配建模为 global-combinatorial-optimization,通过最大化长期语义信息保留来驱动分配决策,而非依赖瞬时启发式分数。
核心原理
LU-KV 将 KV 缓存驱逐重新定位为战略性投资问题:
- 每个 attention head 有不同的"投资回报率"——即增加预算对长期语义保存的边际贡献
- 预算分配应基于 marginal-utility 而非绝对分数
- 通过 offline-profiling 预计算各 head 的效用曲线,在线只需查表
方法组件
- oracle-importance — 定义 token 在未来解码窗口中的最大潜在贡献
- optimality-gap — 分解启发式指标与 Oracle 之间的损失差距
- convex-hull-relaxation — PAVA 保序回归 + 贪心求解
- offline-profiling — 三阶段离线校准协议
关键性质
- 指标无关(Metric-Agnostic):可适配 SnapKV、KeyDiff、CAKE、KVZip 等多种 intra-head 评分方法
- 跨任务可迁移:head 级最优压缩率在不同任务间高度一致
- 可忽略的在线开销:查表 → 预算计算 → 驱逐,无在线优化
- 80% 压缩率:在 LongBench 和 RULER 上以 80% KV cache 压缩实现最小性能退化
相关概念
- long-horizon-utility — LU-KV 核心视角:超越瞬时的长期效用
- head-level-budget-allocation — LU-KV 的主要优化对象
- heuristic-metric — LU-KV 解耦了指标选择与预算分配
参考
- 论文:tang-lukv (Tang et al., ICML 2026)
- 代码:未公开(截至 2026-06)