20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/long-horizon-evaluation.md
+++ b/concepts/long-horizon-evaluation.md
@@ -0,0 +1,46 @@
+---
+title: "Long-Horizon Evaluation / 长视界评估"
+created: 2026-05-14
+type: concept
+tags: ["evaluation", "benchmarking", "long-interaction", "compounding-errors"]
+sources: ["https://arxiv.org/abs/2604.15597"]
+---
+
+# Long-Horizon Evaluation
+
+长视界评估（Long-Horizon Evaluation）是 [[delegate-52]] 的核心方法论贡献：通过延长交互来揭示短评估中不可见的退化模式。
+
+## 核心发现：短 ≠ 长
+
+[[delegate-52]] 的实验明确证明，短交互表现不能预测长视界表现：
+
+- GPT 5 和 Kimi K2.5 在 2 次交互后几乎同分 (91.5 vs 91.1)，但 20 次后差距巨大 (48.3 vs 64.1)
+- Gemini 3 Flash 在 2 次交互时落后 Mistral Large 3 达 6.4 分，但最终追平 (35.8 vs 35.5)
+
+## 复合效应
+
+多种退化因素在长视界中**乘性叠加**：
+
+- 文档大小效应：短交互中每 1k tokens 约退 0.7%，长交互中约退 3.6%（5 倍放大）
+- 干扰文档效应：2 次交互后仅 0.4-4% 改善，20 次后改善 2-8%
+- 扩展到 100 次交互仍持续退化，无收敛迹象
+
+## 与传统评估的对比
+
+| 维度 | 传统单轮评估 | 长视界评估 |
+|------|-------------|-----------|
+| 错误累积 | 不评估 | 核心指标 |
+| 预测效力 | 弱 | 强 |
+| 真实度 | 低 | 高 |
+| 成本 | 低 | 高（长链推理 × N 次） |
+
+## 与 Memory 评估的区别
+
+传统多会话研究关注记忆问题（系统能否记住、检索、适应），[[delegate-52]] 研究的是正交的失败模式：**被操作的对象是否在退化**。
+
+## 相关概念
+
+- [[delegate-52]] — 长视界评估的具体实现
+- [[document-degradation]] — 长视界揭示的核心现象
+- [[backtranslation-round-trip-relay]] — 实现长视界的机制
+- [[critical-failures]] — 长视界中才充分暴露的错误模式