20260625:很多新内容
This commit is contained in:
47
concepts/lukv.md
Normal file
47
concepts/lukv.md
Normal file
@@ -0,0 +1,47 @@
|
||||
---
|
||||
title: "LU-KV (Long-horizon Utility KV)"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: concept
|
||||
tags: ["kv-cache", "combinatorial-optimization", "llm-inference"]
|
||||
sources: ["https://arxiv.org/abs/2602.08585"]
|
||||
---
|
||||
|
||||
# LU-KV
|
||||
|
||||
## 定义
|
||||
|
||||
LU-KV(Long-horizon Utility KV)是 Tang et al. (ICML 2026) 提出的 KV Cache 驱逐框架。核心创新是将 **head 级别预算分配**建模为 [[global-combinatorial-optimization]],通过最大化长期语义信息保留来驱动分配决策,而非依赖瞬时启发式分数。
|
||||
|
||||
## 核心原理
|
||||
|
||||
LU-KV 将 KV 缓存驱逐重新定位为**战略性投资问题**:
|
||||
|
||||
- 每个 attention head 有不同的"投资回报率"——即增加预算对长期语义保存的边际贡献
|
||||
- 预算分配应基于 [[marginal-utility]] 而非绝对分数
|
||||
- 通过 [[offline-profiling]] 预计算各 head 的效用曲线,在线只需查表
|
||||
|
||||
## 方法组件
|
||||
|
||||
1. **[[oracle-importance]]** — 定义 token 在未来解码窗口中的最大潜在贡献
|
||||
2. **[[optimality-gap]]** — 分解启发式指标与 Oracle 之间的损失差距
|
||||
3. **[[convex-hull-relaxation]]** — PAVA 保序回归 + 贪心求解
|
||||
4. **[[offline-profiling]]** — 三阶段离线校准协议
|
||||
|
||||
## 关键性质
|
||||
|
||||
- **指标无关(Metric-Agnostic)**:可适配 SnapKV、KeyDiff、CAKE、KVZip 等多种 intra-head 评分方法
|
||||
- **跨任务可迁移**:head 级最优压缩率在不同任务间高度一致
|
||||
- **可忽略的在线开销**:查表 → 预算计算 → 驱逐,无在线优化
|
||||
- **80% 压缩率**:在 LongBench 和 RULER 上以 80% KV cache 压缩实现最小性能退化
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[long-horizon-utility]] — LU-KV 核心视角:超越瞬时的长期效用
|
||||
- [[head-level-budget-allocation]] — LU-KV 的主要优化对象
|
||||
- [[heuristic-metric]] — LU-KV 解耦了指标选择与预算分配
|
||||
|
||||
## 参考
|
||||
|
||||
- 论文:[[tang-lukv|Predicting Future Utility]] (Tang et al., ICML 2026)
|
||||
- 代码:未公开(截至 2026-06)
|
||||
Reference in New Issue
Block a user