--- title: "KV Cache Eviction" created: 2026-06-18 updated: 2026-06-18 type: concept tags: ["llm-inference", "kv-cache", "memory-optimization"] sources: [] --- # KV Cache Eviction ## 定义 KV Cache Eviction(KV 缓存驱逐)是在不显著损失模型性能的前提下,选择性删除 [[kv-cache]] 中重要性较低的 token 对 (k, v),以降低内存占用并加速推理的技术。 ## 两阶段范式 现代 KV Cache Eviction 方法通常采用两阶段范式: 1. **[[intra-head-eviction]]**:在每个注意力头内设计评分指标(如注意力累积分数、Key 向量几何特征),选出高分 token 2. **[[cross-head-budget-allocation]]**:在不同头之间分配差异化预算,利用各头对信息密度的异质性 ## 主要方法 | 方法 | 策略类型 | 评分依据 | |------|---------|---------| | [[snapkv]] | Intra-head | 累积注意力分数 + 观察窗口 | | [[keydiff]] | Intra-head | Key 向量几何特征(差分) | | [[pyramidkv]] | Cross-head | 静态金字塔形(信息漏斗假说) | | [[adkv]] | Cross-head | 动态全局 Top-K(注意力熵) | | [[tang-lukv|LU-KV]] | Cross-head | 全局组合优化 + 长期边际效用 | ## 核心挑战 传统方法依赖**瞬时启发式指标**(instantaneous heuristic metrics),存在根本缺陷: - 假设注意力分数在不同 head 间可比(实际分数尺度差异大) - 高分 head ≠ 长期信息保真度高 - 忽略 [[optimality-gap]]:启发式指标与 [[oracle-importance]] 的差距 ## 相关概念 - [[long-horizon-utility]] — 超越瞬时分数,评估 token 的未来贡献 - [[marginal-utility]] — 预算分配的边际收益视角 - [[global-combinatorial-optimization]] — 全局最优预算分配的形式化 ## 参考 - H2O (Zhang et al., 2023) - [[tang-lukv|LU-KV]] (Tang et al., ICML 2026)