Files
myWiki/papers/laban-llms-corrupt-documents-delegate.md

3.2 KiB
Raw Permalink Blame History

title, created, type, tags, sources
title created type tags sources
LLMs Corrupt Your Documents When You Delegate 2026-05-14 paper
delegated-work
document-editing
evaluation
benchmark
long-horizon
backtranslation
https://arxiv.org/abs/2604.15597

LLMs Corrupt Your Documents When You Delegate

Philippe Laban, Tobias Schnabel, Jennifer Neville — Microsoft Research arXiv 2604.15597 (cs.CL, cs.HC), April 2026

核心问题

当我们把文档编辑工作委托给 LLM 时,模型会静默地破坏文档内容。即使是前沿模型Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4),在 20 次交互后平均损坏约 25% 的文档内容。更关键的是,这些错误是稀疏但严重的:不是"千刀万剐"式的小错误累积,而是少数几次关键失败导致了约 80% 的总损坏。

方法论:backtranslation-round-trip-relay

论文提出 delegate-52 基准,包含 310 个工作环境、覆盖 52 个专业领域。评估使用 backtranslation-round-trip-relay 方法——每次编辑任务都是可逆的(正向编辑 + 反向编辑 = 回译),完美模型应该能无损恢复原始文档。将 N 个回译串联形成 relay衡量 round-trip-reconstruction-score

关键发现

1. document-degradation 普遍存在

  • 所有 19 个模型都出现文档退化,无一例外
  • 前沿模型 25% 退化,平均 50% 退化
  • Python 是唯一大多数模型达到 "ready" (RS@20 ≥ 98%) 的领域

2. critical-failures 而非渐进退化

  • 约 80% 的退化来自少数几次关键错误(单次回译丢失 10-30+ 分)
  • 弱模型的退化主要来自删除内容,前沿模型的退化主要来自内容损坏

3. Agentic 工具使用未改善表现

  • 4 个测试模型在工具模式下平均额外退化 6%
  • 工具使用带来 2-5x 输入 token 开销
  • 更好的模型倾向于使用 code execution 而非文件重写GPT 5.4: 45% vs GPT 4.1: 10%

4. 复合效应

  • distractor-context 的危害随着交互长度增加而放大
  • 文档大小和交互长度的负效应乘性叠加5 倍放大)
  • 扩展到 100 次交互后所有模型仍持续退化,无平台迹象

领域差异

模型在编程领域Python, DBSchema表现更好在自然语言和小众领域Earnings Statements, Music Notation表现更差。高重复性和结构化密度的领域Molecule, Chess表现更好。

意义

  • 对开发者52 个领域可视为 "mini-gym",用于通过 cycle consistency 训练模型
  • 对研究者:需要更多 long-horizon-evaluation 基准,短交互表现不能预测长视界表现
  • 对用户:模型能力遵循 jagged-frontier,在 Python 中可靠不等于在其他领域中可靠

相关概念