Files
myWiki/concepts/long-horizon-evaluation.md

47 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Long-Horizon Evaluation / 长视界评估"
created: 2026-05-14
type: concept
tags: ["evaluation", "benchmarking", "long-interaction", "compounding-errors"]
sources: ["https://arxiv.org/abs/2604.15597"]
---
# Long-Horizon Evaluation
长视界评估Long-Horizon Evaluation是 [[delegate-52]] 的核心方法论贡献:通过延长交互来揭示短评估中不可见的退化模式。
## 核心发现:短 ≠ 长
[[delegate-52]] 的实验明确证明,短交互表现不能预测长视界表现:
- GPT 5 和 Kimi K2.5 在 2 次交互后几乎同分 (91.5 vs 91.1),但 20 次后差距巨大 (48.3 vs 64.1)
- Gemini 3 Flash 在 2 次交互时落后 Mistral Large 3 达 6.4 分,但最终追平 (35.8 vs 35.5)
## 复合效应
多种退化因素在长视界中**乘性叠加**
- 文档大小效应:短交互中每 1k tokens 约退 0.7%,长交互中约退 3.6%5 倍放大)
- 干扰文档效应2 次交互后仅 0.4-4% 改善20 次后改善 2-8%
- 扩展到 100 次交互仍持续退化,无收敛迹象
## 与传统评估的对比
| 维度 | 传统单轮评估 | 长视界评估 |
|------|-------------|-----------|
| 错误累积 | 不评估 | 核心指标 |
| 预测效力 | 弱 | 强 |
| 真实度 | 低 | 高 |
| 成本 | 低 | 高(长链推理 × N 次) |
## 与 Memory 评估的区别
传统多会话研究关注记忆问题(系统能否记住、检索、适应),[[delegate-52]] 研究的是正交的失败模式:**被操作的对象是否在退化**。
## 相关概念
- [[delegate-52]] — 长视界评估的具体实现
- [[document-degradation]] — 长视界揭示的核心现象
- [[backtranslation-round-trip-relay]] — 实现长视界的机制
- [[critical-failures]] — 长视界中才充分暴露的错误模式