Files
myWiki/concepts/lukv.md

48 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "LU-KV (Long-horizon Utility KV)"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: ["kv-cache", "combinatorial-optimization", "llm-inference"]
sources: ["https://arxiv.org/abs/2602.08585"]
---
# LU-KV
## 定义
LU-KVLong-horizon Utility KV是 Tang et al. (ICML 2026) 提出的 KV Cache 驱逐框架。核心创新是将 **head 级别预算分配**建模为 [[global-combinatorial-optimization]],通过最大化长期语义信息保留来驱动分配决策,而非依赖瞬时启发式分数。
## 核心原理
LU-KV 将 KV 缓存驱逐重新定位为**战略性投资问题**
- 每个 attention head 有不同的"投资回报率"——即增加预算对长期语义保存的边际贡献
- 预算分配应基于 [[marginal-utility]] 而非绝对分数
- 通过 [[offline-profiling]] 预计算各 head 的效用曲线,在线只需查表
## 方法组件
1. **[[oracle-importance]]** — 定义 token 在未来解码窗口中的最大潜在贡献
2. **[[optimality-gap]]** — 分解启发式指标与 Oracle 之间的损失差距
3. **[[convex-hull-relaxation]]** — PAVA 保序回归 + 贪心求解
4. **[[offline-profiling]]** — 三阶段离线校准协议
## 关键性质
- **指标无关Metric-Agnostic**:可适配 SnapKV、KeyDiff、CAKE、KVZip 等多种 intra-head 评分方法
- **跨任务可迁移**head 级最优压缩率在不同任务间高度一致
- **可忽略的在线开销**:查表 → 预算计算 → 驱逐,无在线优化
- **80% 压缩率**:在 LongBench 和 RULER 上以 80% KV cache 压缩实现最小性能退化
## 相关概念
- [[long-horizon-utility]] — LU-KV 核心视角:超越瞬时的长期效用
- [[head-level-budget-allocation]] — LU-KV 的主要优化对象
- [[heuristic-metric]] — LU-KV 解耦了指标选择与预算分配
## 参考
- 论文:[[tang-lukv|Predicting Future Utility]] (Tang et al., ICML 2026)
- 代码:未公开(截至 2026-06