--- title: "DELEGATE-52" created: 2026-05-14 type: concept tags: ["benchmark", "document-editing", "evaluation", "delegated-work", "52-domains"] sources: ["https://arxiv.org/abs/2604.15597"] --- # DELEGATE-52 DELEGATE-52 是 Microsoft Research 提出的基准测试,用于评估 LLM 在委托工作流中的表现。包含 310 个工作环境,覆盖 52 个专业领域。 ## 设计原则 - **真实文档**:所有种子文档来自真实在线来源(非合成数据),范围 3-5k tokens - **可逆编辑**:每个编辑任务有正向和反向指令,形成 [[backtranslation-round-trip-relay|回译]] - **领域特定评估**:每个领域有自定义的解析器和语义等价评分函数 - **干扰上下文**:每个环境包含 8-12k tokens 的话题相关但无需编辑的文档 ## 五个领域类别 | 类别 | 领域数 | 示例 | |------|--------|------| | Code & Configuration | 11 | Python, DBSchema, Docker, JSON, Graphviz | | Science & Engineering | 11 | Crystal, Molecule, MathLean, Quantum, Robotics | | Creative & Media | 11 | Music, LaTeX, Slides, Fiction, Weaving | | Structured Records | 11 | Accounting, Genealogy, Spreadsheet, EDIFACT | | Everyday | 8 | Recipe, Chess, Job Board, Playlist, Transit | ## 核心指标 [[round-trip-reconstruction-score|RS@k]]:经过 k 次交互后的文档重建分数,衡量与原始文档的 [[semantic-equivalence|语义等价]]程度。RS@20 ≥ 98% 视为该领域"准备就绪"。 ## 主要结果 - 19 个 LLM 测试,最终平均退化 50% - 前沿模型退化约 25% - Python 是唯一大多数模型 (17/19) 达到 "ready" 的领域 - 最佳模型 (Gemini 3.1 Pro) 仅在 11/52 领域中 "ready" ## 相关概念 - [[backtranslation-round-trip-relay]] — 评估方法论 - [[round-trip-reconstruction-score]] — RS@k 指标 - [[domain-specific-evaluation]] — 领域特定解析器设计 - [[laban-llms-corrupt-documents-delegate]] — 论文主页面