SidneyZhang/myWiki

Fork 0

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

4.5 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

LU-KV：基于未来效用预测的 KV Cache 驱逐框架

核心问题

大模型推理中，kv-cache 随序列长度线性增长，成为吞吐量瓶颈。现有 kv-cache-eviction 方法依赖瞬时启发式指标判断 token 重要性，忽略了不同注意力头在预测保真度上的异质性——某些 head 的瞬时注意力分数与其长期贡献严重失配。

核心洞察

LU-KV 的核心论点是：最优预算分配不应基于绝对分数，而应由边际效用（marginal-utility）驱动——即「每增加一单位预算，能保存多少长期语义信息」。这类似于经济学中的投资回报（ROI）思维：如果某个 head 的启发式指标与 oracle-importance 失配严重，继续向其分配预算的边际回报会急剧递减。

方法框架

两阶段范式

LU-KV 框架建立在 kv-cache-eviction 的两阶段分解之上：

intra-head-eviction：在每个 head 内使用任意启发式指标 π（如 SnapKV、KeyDiff）对 token 排序
cross-head-budget-allocation：在 head 之间分配全局缓存预算 {b_{ℓ,h}}

形式化分析

核心贡献是严格分解了驱逐损失（eviction loss）：

Eviction Loss = Oracle Metric Loss（固定，受压缩率约束）
               + Optimality Gap Loss（指标 π 与 Oracle 之间的差距）

即：L(M^π) = L(M^*) + Δ(π, π*, b)，其中 optimality-gap Δ 随预算和指标变化。

Oracle 重要性

oracle-importance I_{ℓ,h,j} 定义为 token j 在未来解码窗口中对输出向量的最大潜在贡献：涵盖注意力权重 A、value 向量 v、和输出投影矩阵 W_O。

全局组合优化

将 head 级预算分配形式化为 global-combinatorial-optimization：

min Σ L(M^π(b_{ℓ,h}))  subject to  Σ b_{ℓ,h} = B_total

该问题是非凸离散组合优化，通过 convex-hull-relaxation 求解：

对每个 head 的离散损失序列用 PAVA（Pool Adjacent Violators Algorithm）做保序回归
从凸化后的损失序列计算有效边际增益 g_{ℓ,h}(i)
全局贪心：每次从边际增益最大的 head 分配一个 token 位置
贪心解与最优 DP 解完全一致（理论保证）

离线 Profiling

offline-profiling 三阶段协议桥接理论与部署：

上下文生成：构造约 4K tokens 的合成叙述文本（与评测集无重叠）
Oracle 计算：生成 M=30 个多样化查询，通过全注意力解码获取 ground-truth Oracle 重要性
Profile 聚合：在密集的全局压缩率网格上求解每个查询的最优配置，取平均得到静态 profile Φ(π)

关键经验发现：各 head 的最优压缩率在不同任务间高度一致，使离线 profile 可迁移。

核心贡献

贡献	说明
问题重定义	将 KV 驱逐从"被动丢弃"转为"战略性投资分配"
optimality-gap 分解	严格分离 Oracle 损失和指标差距
convex-hull-relaxation	PAVA 保序回归 + 贪心求解，达到 DP 最优
offline-profiling	三阶段协议，profile 跨任务可迁移
指标无关	适配 SnapKV、KeyDiff、CAKE、KVZip 等多种 π

实验结果

LongBench：80% 压缩率下，LU-KV 在所有模型（Llama-3.1-8B、Mistral-7B、Qwen2.5-32B）上优于 Uniform、PyramidKV、AdaKV 等基线
RULER：4K–128K 扩展上下文窗口下保持鲁棒检索性能
兼容性：与 SnapKV、KeyDiff、CAKE、KVZip 四种 intra-head 指标配合均有效提升
推理开销：在线仅需查表 → 预算计算 → 驱逐三步，额外开销可忽略

参考

原始存档：原始论文
arXiv: https://arxiv.org/abs/2602.08585
发表：ICML 2026, PMLR 306
机构：复旦大学 + 百度百舸 AI Team

4.5 KiB Raw Blame History Unescape Escape