1.9 KiB
1.9 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Long-Horizon Utility | 2026-06-18 | 2026-06-18 | concept |
|
|
Long-Horizon Utility
定义
Long-Horizon Utility(长视界效用)是 LU-KV 提出的核心概念,指从未来解码步骤的视角评估 KV Cache token 的真实贡献,而非依赖于 prefill 阶段的瞬时注意力分数。它是对传统 heuristic-metric "短视"问题的根本性修正。
与传统指标的对立
| 视角 | 指标类型 | 符号 | 时间基准 |
|---|---|---|---|
| 短视(Short-horizon) | heuristic-metric | π | prefill 瞬时 |
| 长视(Long-horizon) | oracle-importance | π* | 未来解码窗口 |
传统方法(H2O、SnapKV、KeyDiff 等)的评分基于 prefill 阶段计算的注意力权重,这些权重反映了"此刻"的重要程度,但无法预知未来解码步骤中注意力模式的漂移。
LU-KV 中的体现
在 LU-KV 框架中,Long-Horizon Utility 通过以下方式实现:
- Oracle 重要性定义:I_{l,h,j} = max_k ||A_{l,h,k,j} * v_{l,h,j} * W_O||,明确以未来 K_max 步为评估窗口
- 边际效用视角:不是判断 token "现在是否重要",而是"保留它能为未来生成质量增加多少价值"
- 离线 profiling:通过全注意力解码获取真实的未来效用数据,用于标定各 head
核心洞察
最优预算分配应受长期语义信息保存的边际效用支配,而非瞬时重要性分数。
这本质上是一个时间维度的范式转换:从"什么 token 现在看起来重要"到"什么 token 未来会被证明重要"。
相关概念
- oracle-importance — 长视界效用的具体量化
- marginal-utility — 基于长视界效用曲线的投资回报思维
- optimality-gap — 长视界 vs 短视的差距
参考
- tang-lukv (Tang et al., ICML 2026)