47 lines
1.8 KiB
Markdown
47 lines
1.8 KiB
Markdown
---
|
||
title: "Long-Horizon Evaluation / 长视界评估"
|
||
created: 2026-05-14
|
||
type: concept
|
||
tags: ["evaluation", "benchmarking", "long-interaction", "compounding-errors"]
|
||
sources: ["https://arxiv.org/abs/2604.15597"]
|
||
---
|
||
|
||
# Long-Horizon Evaluation
|
||
|
||
长视界评估(Long-Horizon Evaluation)是 [[delegate-52]] 的核心方法论贡献:通过延长交互来揭示短评估中不可见的退化模式。
|
||
|
||
## 核心发现:短 ≠ 长
|
||
|
||
[[delegate-52]] 的实验明确证明,短交互表现不能预测长视界表现:
|
||
|
||
- GPT 5 和 Kimi K2.5 在 2 次交互后几乎同分 (91.5 vs 91.1),但 20 次后差距巨大 (48.3 vs 64.1)
|
||
- Gemini 3 Flash 在 2 次交互时落后 Mistral Large 3 达 6.4 分,但最终追平 (35.8 vs 35.5)
|
||
|
||
## 复合效应
|
||
|
||
多种退化因素在长视界中**乘性叠加**:
|
||
|
||
- 文档大小效应:短交互中每 1k tokens 约退 0.7%,长交互中约退 3.6%(5 倍放大)
|
||
- 干扰文档效应:2 次交互后仅 0.4-4% 改善,20 次后改善 2-8%
|
||
- 扩展到 100 次交互仍持续退化,无收敛迹象
|
||
|
||
## 与传统评估的对比
|
||
|
||
| 维度 | 传统单轮评估 | 长视界评估 |
|
||
|------|-------------|-----------|
|
||
| 错误累积 | 不评估 | 核心指标 |
|
||
| 预测效力 | 弱 | 强 |
|
||
| 真实度 | 低 | 高 |
|
||
| 成本 | 低 | 高(长链推理 × N 次) |
|
||
|
||
## 与 Memory 评估的区别
|
||
|
||
传统多会话研究关注记忆问题(系统能否记住、检索、适应),[[delegate-52]] 研究的是正交的失败模式:**被操作的对象是否在退化**。
|
||
|
||
## 相关概念
|
||
|
||
- [[delegate-52]] — 长视界评估的具体实现
|
||
- [[document-degradation]] — 长视界揭示的核心现象
|
||
- [[backtranslation-round-trip-relay]] — 实现长视界的机制
|
||
- [[critical-failures]] — 长视界中才充分暴露的错误模式
|