20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/papers/tang-lukv.md
+++ b/papers/tang-lukv.md
@@ -0,0 +1,101 @@
+---
+title: "LU-KV: Predicting Future Utility for KV Cache Eviction"
+created: 2026-06-18
+updated: 2026-06-18
+type: paper
+tags: ["kv-cache", "llm-inference", "combinatorial-optimization", "attention"]
+sources: ["https://arxiv.org/abs/2602.08585"]
+---
+
+# LU-KV：基于未来效用预测的 KV Cache 驱逐框架
+
+## 核心问题
+
+大模型推理中，[[kv-cache]] 随序列长度线性增长，成为吞吐量瓶颈。现有 [[kv-cache-eviction]] 方法依赖瞬时启发式指标判断 token 重要性，忽略了不同注意力头在预测保真度上的**异质性**——某些 head 的瞬时注意力分数与其长期贡献严重失配。
+
+## 核心洞察
+
+LU-KV 的核心论点是：最优预算分配不应基于绝对分数，而应由**边际效用**（[[marginal-utility]]）驱动——即「每增加一单位预算，能保存多少长期语义信息」。这类似于经济学中的投资回报（ROI）思维：如果某个 head 的启发式指标与 [[oracle-importance]] 失配严重，继续向其分配预算的边际回报会急剧递减。
+
+## 方法框架
+
+### 两阶段范式
+
+LU-KV 框架建立在 [[kv-cache-eviction]] 的两阶段分解之上：
+
+1. **[[intra-head-eviction]]**：在每个 head 内使用任意启发式指标 π（如 SnapKV、KeyDiff）对 token 排序
+2. **[[cross-head-budget-allocation]]**：在 head 之间分配全局缓存预算 {b_{ℓ,h}}
+
+### 形式化分析
+
+核心贡献是严格分解了驱逐损失（eviction loss）：
+
+```
+Eviction Loss = Oracle Metric Loss（固定，受压缩率约束）
+               + Optimality Gap Loss（指标 π 与 Oracle 之间的差距）
+```
+
+即：`L(M^π) = L(M^*) + Δ(π, π*, b)`，其中 [[optimality-gap]] Δ 随预算和指标变化。
+
+### Oracle 重要性
+
+[[oracle-importance]] I_{ℓ,h,j} 定义为 token j 在未来解码窗口中对输出向量的**最大潜在贡献**：涵盖注意力权重 A、value 向量 v、和输出投影矩阵 W_O。
+
+### 全局组合优化
+
+将 head 级预算分配形式化为 [[global-combinatorial-optimization]]：
+
+```
+min Σ L(M^π(b_{ℓ,h}))  subject to  Σ b_{ℓ,h} = B_total
+```
+
+该问题是**非凸离散组合优化**，通过 [[convex-hull-relaxation]] 求解：
+
+1. 对每个 head 的离散损失序列用 PAVA（Pool Adjacent Violators Algorithm）做保序回归
+2. 从凸化后的损失序列计算有效边际增益 g_{ℓ,h}(i)
+3. 全局贪心：每次从边际增益最大的 head 分配一个 token 位置
+4. 贪心解与最优 DP 解完全一致（理论保证）
+
+### 离线 Profiling
+
+[[offline-profiling]] 三阶段协议桥接理论与部署：
+
+1. **上下文生成**：构造约 4K tokens 的合成叙述文本（与评测集无重叠）
+2. **Oracle 计算**：生成 M=30 个多样化查询，通过全注意力解码获取 ground-truth Oracle 重要性
+3. **Profile 聚合**：在密集的全局压缩率网格上求解每个查询的最优配置，取平均得到静态 profile Φ(π)
+
+关键经验发现：各 head 的最优压缩率在不同任务间**高度一致**，使离线 profile 可迁移。
+
+## 核心贡献
+
+| 贡献 | 说明 |
+|------|------|
+| 问题重定义 | 将 KV 驱逐从"被动丢弃"转为"战略性投资分配" |
+| [[optimality-gap]] 分解 | 严格分离 Oracle 损失和指标差距 |
+| [[convex-hull-relaxation]] | PAVA 保序回归 + 贪心求解，达到 DP 最优 |
+| [[offline-profiling]] | 三阶段协议，profile 跨任务可迁移 |
+| 指标无关 | 适配 SnapKV、KeyDiff、CAKE、KVZip 等多种 π |
+
+## 实验结果
+
+- **LongBench**：80% 压缩率下，LU-KV 在所有模型（Llama-3.1-8B、Mistral-7B、Qwen2.5-32B）上优于 Uniform、PyramidKV、AdaKV 等基线
+- **RULER**：4K–128K 扩展上下文窗口下保持鲁棒检索性能
+- **兼容性**：与 SnapKV、KeyDiff、CAKE、KVZip 四种 intra-head 指标配合均有效提升
+- **推理开销**：在线仅需查表 → 预算计算 → 驱逐三步，额外开销可忽略
+
+## 相关概念
+
+- [[long-horizon-utility]] — 长视界效用 vs 瞬时注意力分数
+- [[heuristic-metric]] — 启发式指标（SnapKV、KeyDiff 等）
+- [[marginal-utility]] — 边际效用驱动的分配策略
+- [[snapkv]] — 基于累积注意力的 intra-head 指标
+- [[pyramidkv]] — 基于信息漏斗假说的静态分配
+- [[adkv]] — 基于注意熵的动态全局 Top-K 分配
+- [[keydiff]] — 基于 Key 向量几何特征的指标
+
+## 参考
+
+- 原始存档：[原始论文](raw/papers/tang-lukv-2026.md)
+- arXiv: https://arxiv.org/abs/2602.08585
+- 发表：ICML 2026, PMLR 306
+- 机构：复旦大学 + 百度百舸 AI Team