20260625:很多新内容
This commit is contained in:
52
concepts/pyramidkv.md
Normal file
52
concepts/pyramidkv.md
Normal file
@@ -0,0 +1,52 @@
|
||||
---
|
||||
title: "PyramidKV"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: concept
|
||||
tags: ["kv-cache", "cross-head-budget-allocation", "static-allocation"]
|
||||
sources: []
|
||||
---
|
||||
|
||||
# PyramidKV
|
||||
|
||||
## 定义
|
||||
|
||||
PyramidKV (Cai et al., 2024) 是一种静态的 [[cross-head-budget-allocation]] 方法,基于"信息漏斗"(Information Funneling)假说,采用固定的金字塔形预算分布:浅层保留更多 token,深层逐渐减少。
|
||||
|
||||
## 核心假设
|
||||
|
||||
> 注意力信息从浅层向深层逐渐"漏斗式"汇聚——深层需要的 KV 信息量更少。
|
||||
|
||||
基于此,PyramidKV 使用固定的逐层预算模式,无需在线计算。
|
||||
|
||||
## 分配方式
|
||||
|
||||
```
|
||||
b_layer_1 > b_layer_2 > ... > b_layer_L (逐层递减的金字塔形)
|
||||
```
|
||||
|
||||
这是一个**静态规则**,不依赖 token 内容或注意力模式。
|
||||
|
||||
## 局限性
|
||||
|
||||
LU-KV 论文指出 PyramidKV 的三个局限:
|
||||
|
||||
1. **忽略 head 间差异**:同一层内的不同 head 可能有不同的信息需求
|
||||
2. **先验未必成立**:信息漏斗假说在某些任务/模型中不成立
|
||||
3. **不考虑指标质量**:不区分 [[heuristic-metric]] 在不同 head 中的可靠性
|
||||
|
||||
## 在 LU-KV 实验中的角色
|
||||
|
||||
作为 [[cross-head-budget-allocation]] baseline 之一,PyramidKV 在 LongBench 和 RULER 上的表现系统性地弱于 LU-KV,验证了全局组合优化的价值。
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[cross-head-budget-allocation]] — PyramidKV 所在的更大类别
|
||||
- [[adkv]] — 动态分配的替代方案
|
||||
- [[head-level-budget-allocation]] — LU-KV 的优化方案
|
||||
- [[tang-lukv|LU-KV]] — 优于 PyramidKV 的全局优化方法
|
||||
|
||||
## 参考
|
||||
|
||||
- PyramidKV (Cai et al., 2024)
|
||||
- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026)
|
||||
Reference in New Issue
Block a user