20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/pyramidkv.md
+++ b/concepts/pyramidkv.md
@@ -0,0 +1,52 @@
+---
+title: "PyramidKV"
+created: 2026-06-18
+updated: 2026-06-18
+type: concept
+tags: ["kv-cache", "cross-head-budget-allocation", "static-allocation"]
+sources: []
+---
+
+# PyramidKV
+
+## 定义
+
+PyramidKV (Cai et al., 2024) 是一种静态的 [[cross-head-budget-allocation]] 方法，基于"信息漏斗"（Information Funneling）假说，采用固定的金字塔形预算分布：浅层保留更多 token，深层逐渐减少。
+
+## 核心假设
+
+> 注意力信息从浅层向深层逐渐"漏斗式"汇聚——深层需要的 KV 信息量更少。
+
+基于此，PyramidKV 使用固定的逐层预算模式，无需在线计算。
+
+## 分配方式
+
+```
+b_layer_1 > b_layer_2 > ... > b_layer_L  （逐层递减的金字塔形）
+```
+
+这是一个**静态规则**，不依赖 token 内容或注意力模式。
+
+## 局限性
+
+LU-KV 论文指出 PyramidKV 的三个局限：
+
+1. **忽略 head 间差异**：同一层内的不同 head 可能有不同的信息需求
+2. **先验未必成立**：信息漏斗假说在某些任务/模型中不成立
+3. **不考虑指标质量**：不区分 [[heuristic-metric]] 在不同 head 中的可靠性
+
+## 在 LU-KV 实验中的角色
+
+作为 [[cross-head-budget-allocation]] baseline 之一，PyramidKV 在 LongBench 和 RULER 上的表现系统性地弱于 LU-KV，验证了全局组合优化的价值。
+
+## 相关概念
+
+- [[cross-head-budget-allocation]] — PyramidKV 所在的更大类别
+- [[adkv]] — 动态分配的替代方案
+- [[head-level-budget-allocation]] — LU-KV 的优化方案
+- [[tang-lukv|LU-KV]] — 优于 PyramidKV 的全局优化方法
+
+## 参考
+
+- PyramidKV (Cai et al., 2024)
+- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026)