20260625:很多新内容
This commit is contained in:
47
concepts/long-horizon-utility.md
Normal file
47
concepts/long-horizon-utility.md
Normal file
@@ -0,0 +1,47 @@
|
||||
---
|
||||
title: "Long-Horizon Utility"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: concept
|
||||
tags: ["kv-cache", "attention", "evaluation"]
|
||||
sources: ["https://arxiv.org/abs/2602.08585"]
|
||||
---
|
||||
|
||||
# Long-Horizon Utility
|
||||
|
||||
## 定义
|
||||
|
||||
Long-Horizon Utility(长视界效用)是 LU-KV 提出的核心概念,指从未来解码步骤的视角评估 KV Cache token 的真实贡献,而非依赖于 prefill 阶段的瞬时注意力分数。它是对传统 [[heuristic-metric]] "短视"问题的根本性修正。
|
||||
|
||||
## 与传统指标的对立
|
||||
|
||||
| 视角 | 指标类型 | 符号 | 时间基准 |
|
||||
|------|---------|------|---------|
|
||||
| 短视(Short-horizon) | [[heuristic-metric]] | π | prefill 瞬时 |
|
||||
| 长视(Long-horizon) | [[oracle-importance]] | π* | 未来解码窗口 |
|
||||
|
||||
传统方法(H2O、SnapKV、KeyDiff 等)的评分基于 prefill 阶段计算的注意力权重,这些权重反映了"此刻"的重要程度,但无法预知未来解码步骤中注意力模式的漂移。
|
||||
|
||||
## LU-KV 中的体现
|
||||
|
||||
在 LU-KV 框架中,Long-Horizon Utility 通过以下方式实现:
|
||||
|
||||
1. **Oracle 重要性定义**:I_{l,h,j} = max_k ||A_{l,h,k,j} * v_{l,h,j} * W_O||,明确以未来 K_max 步为评估窗口
|
||||
2. **边际效用视角**:不是判断 token "现在是否重要",而是"保留它能为未来生成质量增加多少价值"
|
||||
3. **离线 profiling**:通过全注意力解码获取真实的未来效用数据,用于标定各 head
|
||||
|
||||
## 核心洞察
|
||||
|
||||
> 最优预算分配应受**长期语义信息保存的边际效用**支配,而非瞬时重要性分数。
|
||||
|
||||
这本质上是一个**时间维度的范式转换**:从"什么 token 现在看起来重要"到"什么 token 未来会被证明重要"。
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[oracle-importance]] — 长视界效用的具体量化
|
||||
- [[marginal-utility]] — 基于长视界效用曲线的投资回报思维
|
||||
- [[optimality-gap]] — 长视界 vs 短视的差距
|
||||
|
||||
## 参考
|
||||
|
||||
- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026)
|
||||
Reference in New Issue
Block a user