Files
myWiki/concepts/kv-cache-eviction.md

1.8 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
KV Cache Eviction 2026-06-18 2026-06-18 concept
llm-inference
kv-cache
memory-optimization

KV Cache Eviction

定义

KV Cache EvictionKV 缓存驱逐)是在不显著损失模型性能的前提下,选择性删除 kv-cache 中重要性较低的 token 对 (k, v),以降低内存占用并加速推理的技术。

两阶段范式

现代 KV Cache Eviction 方法通常采用两阶段范式:

  1. intra-head-eviction在每个注意力头内设计评分指标如注意力累积分数、Key 向量几何特征),选出高分 token
  2. cross-head-budget-allocation:在不同头之间分配差异化预算,利用各头对信息密度的异质性

主要方法

方法 策略类型 评分依据
snapkv Intra-head 累积注意力分数 + 观察窗口
keydiff Intra-head Key 向量几何特征(差分)
pyramidkv Cross-head 静态金字塔形(信息漏斗假说)
adkv Cross-head 动态全局 Top-K注意力熵
[[tang-lukv LU-KV]] Cross-head

核心挑战

传统方法依赖瞬时启发式指标instantaneous heuristic metrics存在根本缺陷

  • 假设注意力分数在不同 head 间可比(实际分数尺度差异大)
  • 高分 head ≠ 长期信息保真度高
  • 忽略 optimality-gap:启发式指标与 oracle-importance 的差距

相关概念

参考

  • H2O (Zhang et al., 2023)
  • tang-lukv (Tang et al., ICML 2026)