1.8 KiB
1.8 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||
|---|---|---|---|---|---|---|---|---|
| KV Cache Eviction | 2026-06-18 | 2026-06-18 | concept |
|
KV Cache Eviction
定义
KV Cache Eviction(KV 缓存驱逐)是在不显著损失模型性能的前提下,选择性删除 kv-cache 中重要性较低的 token 对 (k, v),以降低内存占用并加速推理的技术。
两阶段范式
现代 KV Cache Eviction 方法通常采用两阶段范式:
- intra-head-eviction:在每个注意力头内设计评分指标(如注意力累积分数、Key 向量几何特征),选出高分 token
- cross-head-budget-allocation:在不同头之间分配差异化预算,利用各头对信息密度的异质性
主要方法
| 方法 | 策略类型 | 评分依据 |
|---|---|---|
| snapkv | Intra-head | 累积注意力分数 + 观察窗口 |
| keydiff | Intra-head | Key 向量几何特征(差分) |
| pyramidkv | Cross-head | 静态金字塔形(信息漏斗假说) |
| adkv | Cross-head | 动态全局 Top-K(注意力熵) |
| [[tang-lukv | LU-KV]] | Cross-head |
核心挑战
传统方法依赖瞬时启发式指标(instantaneous heuristic metrics),存在根本缺陷:
- 假设注意力分数在不同 head 间可比(实际分数尺度差异大)
- 高分 head ≠ 长期信息保真度高
- 忽略 optimality-gap:启发式指标与 oracle-importance 的差距
相关概念
- long-horizon-utility — 超越瞬时分数,评估 token 的未来贡献
- marginal-utility — 预算分配的边际收益视角
- global-combinatorial-optimization — 全局最优预算分配的形式化
参考
- H2O (Zhang et al., 2023)
- tang-lukv (Tang et al., ICML 2026)