Files
myWiki/concepts/long-horizon-evaluation.md

1.8 KiB
Raw Blame History

title, created, type, tags, sources
title created type tags sources
Long-Horizon Evaluation / 长视界评估 2026-05-14 concept
evaluation
benchmarking
long-interaction
compounding-errors
https://arxiv.org/abs/2604.15597

Long-Horizon Evaluation

长视界评估Long-Horizon Evaluationdelegate-52 的核心方法论贡献:通过延长交互来揭示短评估中不可见的退化模式。

核心发现:短 ≠ 长

delegate-52 的实验明确证明,短交互表现不能预测长视界表现:

  • GPT 5 和 Kimi K2.5 在 2 次交互后几乎同分 (91.5 vs 91.1),但 20 次后差距巨大 (48.3 vs 64.1)
  • Gemini 3 Flash 在 2 次交互时落后 Mistral Large 3 达 6.4 分,但最终追平 (35.8 vs 35.5)

复合效应

多种退化因素在长视界中乘性叠加

  • 文档大小效应:短交互中每 1k tokens 约退 0.7%,长交互中约退 3.6%5 倍放大)
  • 干扰文档效应2 次交互后仅 0.4-4% 改善20 次后改善 2-8%
  • 扩展到 100 次交互仍持续退化,无收敛迹象

与传统评估的对比

维度 传统单轮评估 长视界评估
错误累积 不评估 核心指标
预测效力
真实度
成本 高(长链推理 × N 次)

与 Memory 评估的区别

传统多会话研究关注记忆问题(系统能否记住、检索、适应),delegate-52 研究的是正交的失败模式:被操作的对象是否在退化

相关概念