20260625:很多新内容

This commit is contained in:
2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions

View File

@@ -0,0 +1,47 @@
---
title: "Long-Horizon Utility"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: ["kv-cache", "attention", "evaluation"]
sources: ["https://arxiv.org/abs/2602.08585"]
---
# Long-Horizon Utility
## 定义
Long-Horizon Utility长视界效用是 LU-KV 提出的核心概念,指从未来解码步骤的视角评估 KV Cache token 的真实贡献,而非依赖于 prefill 阶段的瞬时注意力分数。它是对传统 [[heuristic-metric]] "短视"问题的根本性修正。
## 与传统指标的对立
| 视角 | 指标类型 | 符号 | 时间基准 |
|------|---------|------|---------|
| 短视Short-horizon | [[heuristic-metric]] | π | prefill 瞬时 |
| 长视Long-horizon | [[oracle-importance]] | π* | 未来解码窗口 |
传统方法H2O、SnapKV、KeyDiff 等)的评分基于 prefill 阶段计算的注意力权重,这些权重反映了"此刻"的重要程度,但无法预知未来解码步骤中注意力模式的漂移。
## LU-KV 中的体现
在 LU-KV 框架中Long-Horizon Utility 通过以下方式实现:
1. **Oracle 重要性定义**I_{l,h,j} = max_k ||A_{l,h,k,j} * v_{l,h,j} * W_O||,明确以未来 K_max 步为评估窗口
2. **边际效用视角**:不是判断 token "现在是否重要",而是"保留它能为未来生成质量增加多少价值"
3. **离线 profiling**:通过全注意力解码获取真实的未来效用数据,用于标定各 head
## 核心洞察
> 最优预算分配应受**长期语义信息保存的边际效用**支配,而非瞬时重要性分数。
这本质上是一个**时间维度的范式转换**:从"什么 token 现在看起来重要"到"什么 token 未来会被证明重要"。
## 相关概念
- [[oracle-importance]] — 长视界效用的具体量化
- [[marginal-utility]] — 基于长视界效用曲线的投资回报思维
- [[optimality-gap]] — 长视界 vs 短视的差距
## 参考
- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026)