Files
myWiki/reviews/delegate52-review-20260514.md

3.1 KiB
Raw Blame History

title, created, type, tags
title created type tags
DELEGATE-52 Review 2026-05-14 review
delegated-work
document-editing
benchmark
long-horizon
backtranslation

📌 基本信息

  • 论文标题: LLMs Corrupt Your Documents When You Delegate
  • 作者: Philippe Laban, Tobias Schnabel, Jennifer Neville (Microsoft Research)
  • 领域: cs.CL计算语言学, cs.HC人机交互
  • arXiv ID: 2604.15597
  • 添加时间: 2026-05-14

🎯 核心概念

  1. delegate-52 — 310 工作环境 × 52 专业领域的基准,评估 LLM 委托工作就绪性
  2. backtranslation-round-trip-relay — 通过可逆编辑链串联,免参考答案评估文档编辑保真度的方法论
  3. document-degradation — LLM 在长委托工作流中静默破坏文档内容的核心现象
  4. critical-failures — 稀疏但严重的错误解释了约 80% 的总退化,而非渐进小错误累积
  5. semantic-equivalence — 通过领域特定解析器实现跨格式的文档等价性评判
  6. jagged-frontier — 模型能力在领域间极度不均衡Python 近乎完美,其他 51 领域远未 ready

🔗 概念网络

核心连接

delegate-52 ← backtranslation-round-trip-relay ← semantic-equivalence
     ↓                      ↓
document-degradation → critical-failures
     ↓
long-horizon-evaluation → jagged-frontier

扩展网络:连接了 11 个新概念页,关联到已有的 ai-safetyagentic-systems 等概念(通过 delegated-workdistractor-context

密度:论文主页面 11 个出链核心概念delegate-528 个链接

📚 Wiki 集成

  • 新增页面: 13 个1 论文 + 11 概念 + 1 review
  • 链接完整性: 0 断链100%
  • Wiki 总规模: 278 → 293 页

💡 关键洞察

1. "千刀万剐" 是错的——是少数致命刀伤

论文最反直觉的发现:文档退化不是均匀累积的小错误("death by a thousand cuts"),而是少数几次灾难性失败。~80% 的总损坏来自若干次关键错误(单次丢失 10-30+ 分)。这意味着用户无法通过"抽查几处"来信任委托结果——错误稀疏但严重。

2. 工具使用反而有害

Agentic harness文件读写 + code execution没有改善表现反而让 4 个模型额外退化 6%。原因:工具调用带来 2-5x 输入 token 开销,而 DELEGATE-52 的任务不适宜纯代码解决。更好的模型GPT 5.4)倾向于 code execution45%弱模型倾向于文件重写90%)——这提示了正确的工具使用策略。

3. 复合效应被严重低估

文档大小、交互长度、干扰文档的负效应是乘性叠加的。短交互2 次)中几乎不可见,但到 20 次交互时放大 5 倍。当前大多数评估基准只测试单轮或短交互——系统性低估了长期委托的风险。

对 sz 而言:这篇论文和你的 CAT/IRT 兴趣有种有趣的平行——都在研究"在有限信息下的测量精度",只是 DELEGATE-52 测量的是"模型的破坏程度"而非"学生的能力水平"。