20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/reviews/delegate52-review-20260514.md
+++ b/reviews/delegate52-review-20260514.md
@@ -0,0 +1,60 @@
+---
+title: "DELEGATE-52 Review"
+created: 2026-05-14
+type: review
+tags: ["delegated-work", "document-editing", "benchmark", "long-horizon", "backtranslation"]
+---
+
+# 📌 基本信息
+
+- **论文标题**: LLMs Corrupt Your Documents When You Delegate
+- **作者**: Philippe Laban, Tobias Schnabel, Jennifer Neville (Microsoft Research)
+- **领域**: cs.CL（计算语言学）, cs.HC（人机交互）
+- **arXiv ID**: 2604.15597
+- **添加时间**: 2026-05-14
+
+# 🎯 核心概念
+
+1. **[[delegate-52]]** — 310 工作环境 × 52 专业领域的基准，评估 LLM 委托工作就绪性
+2. **[[backtranslation-round-trip-relay]]** — 通过可逆编辑链串联，免参考答案评估文档编辑保真度的方法论
+3. **[[document-degradation]]** — LLM 在长委托工作流中静默破坏文档内容的核心现象
+4. **[[critical-failures]]** — 稀疏但严重的错误解释了约 80% 的总退化，而非渐进小错误累积
+5. **[[semantic-equivalence]]** — 通过领域特定解析器实现跨格式的文档等价性评判
+6. **[[jagged-frontier]]** — 模型能力在领域间极度不均衡：Python 近乎完美，其他 51 领域远未 ready
+
+# 🔗 概念网络
+
+**核心连接**：
+```
+delegate-52 ← backtranslation-round-trip-relay ← semantic-equivalence
+     ↓                      ↓
+document-degradation → critical-failures
+     ↓
+long-horizon-evaluation → jagged-frontier
+```
+
+**扩展网络**：连接了 11 个新概念页，关联到已有的 [[ai-safety]]、[[agentic-systems]] 等概念（通过 [[delegated-work]] 和 [[distractor-context]]）
+
+**密度**：论文主页面 11 个出链，核心概念（delegate-52）8 个链接
+
+# 📚 Wiki 集成
+
+- **新增页面**: 13 个（1 论文 + 11 概念 + 1 review）
+- **链接完整性**: 0 断链（100%）
+- **Wiki 总规模**: 278 → 293 页
+
+# 💡 关键洞察
+
+## 1. "千刀万剐" 是错的——是少数致命刀伤
+
+论文最反直觉的发现：文档退化不是均匀累积的小错误（"death by a thousand cuts"），而是少数几次灾难性失败。~80% 的总损坏来自若干次关键错误（单次丢失 10-30+ 分）。这意味着用户无法通过"抽查几处"来信任委托结果——错误稀疏但严重。
+
+## 2. 工具使用反而有害
+
+Agentic harness（文件读写 + code execution）没有改善表现，反而让 4 个模型额外退化 6%。原因：工具调用带来 2-5x 输入 token 开销，而 DELEGATE-52 的任务不适宜纯代码解决。更好的模型（GPT 5.4）倾向于 code execution（45%），弱模型倾向于文件重写（90%）——这提示了正确的工具使用策略。
+
+## 3. 复合效应被严重低估
+
+文档大小、交互长度、干扰文档的负效应是**乘性叠加**的。短交互（2 次）中几乎不可见，但到 20 次交互时放大 5 倍。当前大多数评估基准只测试单轮或短交互——系统性低估了长期委托的风险。
+
+对 sz 而言：这篇论文和你的 CAT/IRT 兴趣有种有趣的平行——都在研究"在有限信息下的测量精度"，只是 DELEGATE-52 测量的是"模型的破坏程度"而非"学生的能力水平"。