SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.8 KiB

Raw Blame History

title, created, type, tags, sources

title

created

type

tags

sources

Long-Horizon Evaluation / 长视界评估

2026-05-14

concept

evaluation

benchmarking

long-interaction

compounding-errors

https://arxiv.org/abs/2604.15597

Long-Horizon Evaluation

长视界评估（Long-Horizon Evaluation）是 delegate-52 的核心方法论贡献：通过延长交互来揭示短评估中不可见的退化模式。

核心发现：短 ≠ 长

delegate-52 的实验明确证明，短交互表现不能预测长视界表现：

GPT 5 和 Kimi K2.5 在 2 次交互后几乎同分 (91.5 vs 91.1)，但 20 次后差距巨大 (48.3 vs 64.1)
Gemini 3 Flash 在 2 次交互时落后 Mistral Large 3 达 6.4 分，但最终追平 (35.8 vs 35.5)

复合效应

多种退化因素在长视界中乘性叠加：

文档大小效应：短交互中每 1k tokens 约退 0.7%，长交互中约退 3.6%（5 倍放大）
干扰文档效应：2 次交互后仅 0.4-4% 改善，20 次后改善 2-8%
扩展到 100 次交互仍持续退化，无收敛迹象

与传统评估的对比

维度	传统单轮评估	长视界评估
错误累积	不评估	核心指标
预测效力	弱	强
真实度	低	高
成本	低	高（长链推理 × N 次）

与 Memory 评估的区别

传统多会话研究关注记忆问题（系统能否记住、检索、适应），delegate-52 研究的是正交的失败模式：被操作的对象是否在退化。

相关概念

delegate-52 — 长视界评估的具体实现
document-degradation — 长视界揭示的核心现象
backtranslation-round-trip-relay — 实现长视界的机制
critical-failures — 长视界中才充分暴露的错误模式