Files
myWiki/concepts/pyramidkv.md

53 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "PyramidKV"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: ["kv-cache", "cross-head-budget-allocation", "static-allocation"]
sources: []
---
# PyramidKV
## 定义
PyramidKV (Cai et al., 2024) 是一种静态的 [[cross-head-budget-allocation]] 方法,基于"信息漏斗"Information Funneling假说采用固定的金字塔形预算分布浅层保留更多 token深层逐渐减少。
## 核心假设
> 注意力信息从浅层向深层逐渐"漏斗式"汇聚——深层需要的 KV 信息量更少。
基于此PyramidKV 使用固定的逐层预算模式,无需在线计算。
## 分配方式
```
b_layer_1 > b_layer_2 > ... > b_layer_L (逐层递减的金字塔形)
```
这是一个**静态规则**,不依赖 token 内容或注意力模式。
## 局限性
LU-KV 论文指出 PyramidKV 的三个局限:
1. **忽略 head 间差异**:同一层内的不同 head 可能有不同的信息需求
2. **先验未必成立**:信息漏斗假说在某些任务/模型中不成立
3. **不考虑指标质量**:不区分 [[heuristic-metric]] 在不同 head 中的可靠性
## 在 LU-KV 实验中的角色
作为 [[cross-head-budget-allocation]] baseline 之一PyramidKV 在 LongBench 和 RULER 上的表现系统性地弱于 LU-KV验证了全局组合优化的价值。
## 相关概念
- [[cross-head-budget-allocation]] — PyramidKV 所在的更大类别
- [[adkv]] — 动态分配的替代方案
- [[head-level-budget-allocation]] — LU-KV 的优化方案
- [[tang-lukv|LU-KV]] — 优于 PyramidKV 的全局优化方法
## 参考
- PyramidKV (Cai et al., 2024)
- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026)