57 lines
2.1 KiB
Markdown
57 lines
2.1 KiB
Markdown
---
|
||
title: "Oracle Importance"
|
||
created: 2026-06-18
|
||
updated: 2026-06-18
|
||
type: concept
|
||
tags: ["kv-cache", "attention", "evaluation-metric"]
|
||
sources: ["https://arxiv.org/abs/2602.08585"]
|
||
---
|
||
|
||
# Oracle Importance
|
||
|
||
## 定义
|
||
|
||
Oracle Importance(Oracle 重要性)是 LU-KV 论文中提出的理论概念,用于严格量化 KV Cache 中每个 token 在**未来解码窗口**中对其注意力头的最大潜在贡献。它是评估 [[heuristic-metric]] 质量的金标准(ground truth)。
|
||
|
||
## 数学定义
|
||
|
||
对于注意力头 (l, h) 中位置 j 的 token,其 Oracle 重要性 I_{l,h,j} 定义为:
|
||
|
||
```
|
||
I_{l,h,j} = max_{k in {1,...,K_max}} || A_{l,h,k,j} * v_{l,h,j} * W_O^{(l,h)} ||
|
||
```
|
||
|
||
其中:
|
||
- A_{l,h,k,j}:未来解码步骤 k 时对位置 j 的注意力权重
|
||
- v_{l,h,j}:位置 j 的 value 向量
|
||
- W_O:输出投影矩阵
|
||
- K_max:未来解码窗口大小
|
||
|
||
直观理解:**在所有未来解码步骤中,该 token 的加权 value 向量能达到的最大 L2 范数**。
|
||
|
||
## 核心作用
|
||
|
||
Oracle Importance 在 LU-KV 框架中承担三个关键角色:
|
||
|
||
1. **Ground truth**:定义"真正重要"的 token——启发式指标应尽可能逼近的目标
|
||
2. **损失分解**:将驱逐损失分解为 Oracle 损失(固定)+ [[optimality-gap]](指标差距)
|
||
3. **Profiling 目标**:[[offline-profiling]] 中通过全注意力解码计算 Oracle 重要性,用于标定各 head 的效用曲线
|
||
|
||
## 与启发式指标的关系
|
||
|
||
| 指标类型 | 时间视角 | 可用性 |
|
||
|---------|---------|--------|
|
||
| [[heuristic-metric]](SnapKV、KeyDiff) | 瞬时(prefill 阶段) | 在线可用 |
|
||
| Oracle Importance | 长视界(未来解码窗口) | 仅离线 profiling 可用 |
|
||
|
||
## 相关概念
|
||
|
||
- [[long-horizon-utility]] — Oracle Importance 是长视界效用的形式化度量
|
||
- [[optimality-gap]] — 启发式与 Oracle 之间的差距
|
||
- [[head-level-budget-allocation]] — 基于 Oracle 效用曲线分配预算
|
||
|
||
## 参考
|
||
|
||
- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) — 提出 Oracle Importance 概念
|
||
- AdaKV (Feng et al., 2026b) — 输出扰动界分析(Oracle Importance 的灵感来源)
|