Files
myWiki/papers/laban-llms-corrupt-documents-delegate.md

63 lines
3.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "LLMs Corrupt Your Documents When You Delegate"
created: 2026-05-14
type: paper
tags: ["delegated-work", "document-editing", "evaluation", "benchmark", "long-horizon", "backtranslation"]
sources: ["https://arxiv.org/abs/2604.15597"]
---
# LLMs Corrupt Your Documents When You Delegate
**Philippe Laban, Tobias Schnabel, Jennifer Neville** — Microsoft Research
arXiv 2604.15597 (cs.CL, cs.HC), April 2026
## 核心问题
当我们把文档编辑工作委托给 LLM 时,模型会**静默地破坏文档内容**。即使是前沿模型Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4),在 20 次交互后平均损坏约 25% 的文档内容。更关键的是,这些错误是**稀疏但严重**的:不是"千刀万剐"式的小错误累积,而是少数几次关键失败导致了约 80% 的总损坏。
## 方法论:[[backtranslation-round-trip-relay]]
论文提出 [[delegate-52]] 基准,包含 310 个工作环境、覆盖 52 个专业领域。评估使用 [[backtranslation-round-trip-relay]] 方法——每次编辑任务都是可逆的(正向编辑 + 反向编辑 = 回译),完美模型应该能无损恢复原始文档。将 N 个回译串联形成 relay衡量 [[round-trip-reconstruction-score|RS@k]]。
## 关键发现
### 1. [[document-degradation]] 普遍存在
- 所有 19 个模型都出现文档退化,无一例外
- 前沿模型 25% 退化,平均 50% 退化
- Python 是唯一大多数模型达到 "ready" (RS@20 ≥ 98%) 的领域
### 2. [[critical-failures|关键失败]] 而非渐进退化
- 约 80% 的退化来自少数几次关键错误(单次回译丢失 10-30+ 分)
- 弱模型的退化主要来自**删除内容**,前沿模型的退化主要来自**内容损坏**
### 3. Agentic 工具使用**未改善**表现
- 4 个测试模型在工具模式下平均额外退化 6%
- 工具使用带来 2-5x 输入 token 开销
- 更好的模型倾向于使用 code execution 而非文件重写GPT 5.4: 45% vs GPT 4.1: 10%
### 4. 复合效应
- [[distractor-context|干扰文档]] 的危害随着交互长度增加而放大
- 文档大小和交互长度的负效应**乘性叠加**5 倍放大)
- 扩展到 100 次交互后所有模型仍持续退化,无平台迹象
## 领域差异
模型在编程领域Python, DBSchema表现更好在自然语言和小众领域Earnings Statements, Music Notation表现更差。高重复性和结构化密度的领域Molecule, Chess表现更好。
## 意义
- **对开发者**52 个领域可视为 "mini-gym",用于通过 cycle consistency 训练模型
- **对研究者**:需要更多 [[long-horizon-evaluation|长视界评估]] 基准,短交互表现不能预测长视界表现
- **对用户**:模型能力遵循 [[jagged-frontier|锯齿前沿]],在 Python 中可靠不等于在其他领域中可靠
## 相关概念
- [[delegate-52]] — 基准本身
- [[backtranslation-round-trip-relay]] — 评估方法论
- [[document-degradation]] — 核心发现
- [[critical-failures]] — 错误结构分析
- [[delegated-work]] — 交互范式
- [[long-horizon-evaluation]] — 评估哲学
- [[domain-specific-evaluation]] — 评估实现
- [[distractor-context]] — 实验设计要素