Files
myWiki/concepts/long-horizon-utility.md

48 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Long-Horizon Utility"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: ["kv-cache", "attention", "evaluation"]
sources: ["https://arxiv.org/abs/2602.08585"]
---
# Long-Horizon Utility
## 定义
Long-Horizon Utility长视界效用是 LU-KV 提出的核心概念,指从未来解码步骤的视角评估 KV Cache token 的真实贡献,而非依赖于 prefill 阶段的瞬时注意力分数。它是对传统 [[heuristic-metric]] "短视"问题的根本性修正。
## 与传统指标的对立
| 视角 | 指标类型 | 符号 | 时间基准 |
|------|---------|------|---------|
| 短视Short-horizon | [[heuristic-metric]] | π | prefill 瞬时 |
| 长视Long-horizon | [[oracle-importance]] | π* | 未来解码窗口 |
传统方法H2O、SnapKV、KeyDiff 等)的评分基于 prefill 阶段计算的注意力权重,这些权重反映了"此刻"的重要程度,但无法预知未来解码步骤中注意力模式的漂移。
## LU-KV 中的体现
在 LU-KV 框架中Long-Horizon Utility 通过以下方式实现:
1. **Oracle 重要性定义**I_{l,h,j} = max_k ||A_{l,h,k,j} * v_{l,h,j} * W_O||,明确以未来 K_max 步为评估窗口
2. **边际效用视角**:不是判断 token "现在是否重要",而是"保留它能为未来生成质量增加多少价值"
3. **离线 profiling**:通过全注意力解码获取真实的未来效用数据,用于标定各 head
## 核心洞察
> 最优预算分配应受**长期语义信息保存的边际效用**支配,而非瞬时重要性分数。
这本质上是一个**时间维度的范式转换**:从"什么 token 现在看起来重要"到"什么 token 未来会被证明重要"。
## 相关概念
- [[oracle-importance]] — 长视界效用的具体量化
- [[marginal-utility]] — 基于长视界效用曲线的投资回报思维
- [[optimality-gap]] — 长视界 vs 短视的差距
## 参考
- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026)