20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/papers/laban-llms-corrupt-documents-delegate.md
+++ b/papers/laban-llms-corrupt-documents-delegate.md
@@ -0,0 +1,62 @@
+---
+title: "LLMs Corrupt Your Documents When You Delegate"
+created: 2026-05-14
+type: paper
+tags: ["delegated-work", "document-editing", "evaluation", "benchmark", "long-horizon", "backtranslation"]
+sources: ["https://arxiv.org/abs/2604.15597"]
+---
+
+# LLMs Corrupt Your Documents When You Delegate
+
+**Philippe Laban, Tobias Schnabel, Jennifer Neville** — Microsoft Research
+arXiv 2604.15597 (cs.CL, cs.HC), April 2026
+
+## 核心问题
+
+当我们把文档编辑工作委托给 LLM 时，模型会**静默地破坏文档内容**。即使是前沿模型（Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4），在 20 次交互后平均损坏约 25% 的文档内容。更关键的是，这些错误是**稀疏但严重**的：不是"千刀万剐"式的小错误累积，而是少数几次关键失败导致了约 80% 的总损坏。
+
+## 方法论：[[backtranslation-round-trip-relay]]
+
+论文提出 [[delegate-52]] 基准，包含 310 个工作环境、覆盖 52 个专业领域。评估使用 [[backtranslation-round-trip-relay]] 方法——每次编辑任务都是可逆的（正向编辑 + 反向编辑 = 回译），完美模型应该能无损恢复原始文档。将 N 个回译串联形成 relay，衡量 [[round-trip-reconstruction-score|RS@k]]。
+
+## 关键发现
+
+### 1. [[document-degradation]] 普遍存在
+- 所有 19 个模型都出现文档退化，无一例外
+- 前沿模型 25% 退化，平均 50% 退化
+- Python 是唯一大多数模型达到 "ready" (RS@20 ≥ 98%) 的领域
+
+### 2. [[critical-failures|关键失败]] 而非渐进退化
+- 约 80% 的退化来自少数几次关键错误（单次回译丢失 10-30+ 分）
+- 弱模型的退化主要来自**删除内容**，前沿模型的退化主要来自**内容损坏**
+
+### 3. Agentic 工具使用**未改善**表现
+- 4 个测试模型在工具模式下平均额外退化 6%
+- 工具使用带来 2-5x 输入 token 开销
+- 更好的模型倾向于使用 code execution 而非文件重写（GPT 5.4: 45% vs GPT 4.1: 10%）
+
+### 4. 复合效应
+- [[distractor-context|干扰文档]] 的危害随着交互长度增加而放大
+- 文档大小和交互长度的负效应**乘性叠加**（5 倍放大）
+- 扩展到 100 次交互后所有模型仍持续退化，无平台迹象
+
+## 领域差异
+
+模型在编程领域（Python, DBSchema）表现更好，在自然语言和小众领域（Earnings Statements, Music Notation）表现更差。高重复性和结构化密度的领域（Molecule, Chess）表现更好。
+
+## 意义
+
+- **对开发者**：52 个领域可视为 "mini-gym"，用于通过 cycle consistency 训练模型
+- **对研究者**：需要更多 [[long-horizon-evaluation|长视界评估]] 基准，短交互表现不能预测长视界表现
+- **对用户**：模型能力遵循 [[jagged-frontier|锯齿前沿]]，在 Python 中可靠不等于在其他领域中可靠
+
+## 相关概念
+
+- [[delegate-52]] — 基准本身
+- [[backtranslation-round-trip-relay]] — 评估方法论
+- [[document-degradation]] — 核心发现
+- [[critical-failures]] — 错误结构分析
+- [[delegated-work]] — 交互范式
+- [[long-horizon-evaluation]] — 评估哲学
+- [[domain-specific-evaluation]] — 评估实现
+- [[distractor-context]] — 实验设计要素