Files
myWiki/reviews/delegate52-review-20260514.md

61 lines
3.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "DELEGATE-52 Review"
created: 2026-05-14
type: review
tags: ["delegated-work", "document-editing", "benchmark", "long-horizon", "backtranslation"]
---
# 📌 基本信息
- **论文标题**: LLMs Corrupt Your Documents When You Delegate
- **作者**: Philippe Laban, Tobias Schnabel, Jennifer Neville (Microsoft Research)
- **领域**: cs.CL计算语言学, cs.HC人机交互
- **arXiv ID**: 2604.15597
- **添加时间**: 2026-05-14
# 🎯 核心概念
1. **[[delegate-52]]** — 310 工作环境 × 52 专业领域的基准,评估 LLM 委托工作就绪性
2. **[[backtranslation-round-trip-relay]]** — 通过可逆编辑链串联,免参考答案评估文档编辑保真度的方法论
3. **[[document-degradation]]** — LLM 在长委托工作流中静默破坏文档内容的核心现象
4. **[[critical-failures]]** — 稀疏但严重的错误解释了约 80% 的总退化,而非渐进小错误累积
5. **[[semantic-equivalence]]** — 通过领域特定解析器实现跨格式的文档等价性评判
6. **[[jagged-frontier]]** — 模型能力在领域间极度不均衡Python 近乎完美,其他 51 领域远未 ready
# 🔗 概念网络
**核心连接**
```
delegate-52 ← backtranslation-round-trip-relay ← semantic-equivalence
↓ ↓
document-degradation → critical-failures
long-horizon-evaluation → jagged-frontier
```
**扩展网络**:连接了 11 个新概念页,关联到已有的 [[ai-safety]]、[[agentic-systems]] 等概念(通过 [[delegated-work]] 和 [[distractor-context]]
**密度**:论文主页面 11 个出链核心概念delegate-528 个链接
# 📚 Wiki 集成
- **新增页面**: 13 个1 论文 + 11 概念 + 1 review
- **链接完整性**: 0 断链100%
- **Wiki 总规模**: 278 → 293 页
# 💡 关键洞察
## 1. "千刀万剐" 是错的——是少数致命刀伤
论文最反直觉的发现:文档退化不是均匀累积的小错误("death by a thousand cuts"),而是少数几次灾难性失败。~80% 的总损坏来自若干次关键错误(单次丢失 10-30+ 分)。这意味着用户无法通过"抽查几处"来信任委托结果——错误稀疏但严重。
## 2. 工具使用反而有害
Agentic harness文件读写 + code execution没有改善表现反而让 4 个模型额外退化 6%。原因:工具调用带来 2-5x 输入 token 开销,而 DELEGATE-52 的任务不适宜纯代码解决。更好的模型GPT 5.4)倾向于 code execution45%弱模型倾向于文件重写90%)——这提示了正确的工具使用策略。
## 3. 复合效应被严重低估
文档大小、交互长度、干扰文档的负效应是**乘性叠加**的。短交互2 次)中几乎不可见,但到 20 次交互时放大 5 倍。当前大多数评估基准只测试单轮或短交互——系统性低估了长期委托的风险。
对 sz 而言:这篇论文和你的 CAT/IRT 兴趣有种有趣的平行——都在研究"在有限信息下的测量精度",只是 DELEGATE-52 测量的是"模型的破坏程度"而非"学生的能力水平"。