1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||
|---|---|---|---|---|---|---|---|---|
| PyramidKV | 2026-06-18 | 2026-06-18 | concept |
|
PyramidKV
定义
PyramidKV (Cai et al., 2024) 是一种静态的 cross-head-budget-allocation 方法,基于"信息漏斗"(Information Funneling)假说,采用固定的金字塔形预算分布:浅层保留更多 token,深层逐渐减少。
核心假设
注意力信息从浅层向深层逐渐"漏斗式"汇聚——深层需要的 KV 信息量更少。
基于此,PyramidKV 使用固定的逐层预算模式,无需在线计算。
分配方式
b_layer_1 > b_layer_2 > ... > b_layer_L (逐层递减的金字塔形)
这是一个静态规则,不依赖 token 内容或注意力模式。
局限性
LU-KV 论文指出 PyramidKV 的三个局限:
- 忽略 head 间差异:同一层内的不同 head 可能有不同的信息需求
- 先验未必成立:信息漏斗假说在某些任务/模型中不成立
- 不考虑指标质量:不区分 heuristic-metric 在不同 head 中的可靠性
在 LU-KV 实验中的角色
作为 cross-head-budget-allocation baseline 之一,PyramidKV 在 LongBench 和 RULER 上的表现系统性地弱于 LU-KV,验证了全局组合优化的价值。
相关概念
- cross-head-budget-allocation — PyramidKV 所在的更大类别
- adkv — 动态分配的替代方案
- head-level-budget-allocation — LU-KV 的优化方案
- tang-lukv — 优于 PyramidKV 的全局优化方法
参考
- PyramidKV (Cai et al., 2024)
- tang-lukv (Tang et al., ICML 2026)