1.9 KiB
1.9 KiB
title, created, type, tags, sources
| title | created | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|
| DELEGATE-52 | 2026-05-14 | concept |
|
|
DELEGATE-52
DELEGATE-52 是 Microsoft Research 提出的基准测试,用于评估 LLM 在委托工作流中的表现。包含 310 个工作环境,覆盖 52 个专业领域。
设计原则
- 真实文档:所有种子文档来自真实在线来源(非合成数据),范围 3-5k tokens
- 可逆编辑:每个编辑任务有正向和反向指令,形成 backtranslation-round-trip-relay
- 领域特定评估:每个领域有自定义的解析器和语义等价评分函数
- 干扰上下文:每个环境包含 8-12k tokens 的话题相关但无需编辑的文档
五个领域类别
| 类别 | 领域数 | 示例 |
|---|---|---|
| Code & Configuration | 11 | Python, DBSchema, Docker, JSON, Graphviz |
| Science & Engineering | 11 | Crystal, Molecule, MathLean, Quantum, Robotics |
| Creative & Media | 11 | Music, LaTeX, Slides, Fiction, Weaving |
| Structured Records | 11 | Accounting, Genealogy, Spreadsheet, EDIFACT |
| Everyday | 8 | Recipe, Chess, Job Board, Playlist, Transit |
核心指标
round-trip-reconstruction-score:经过 k 次交互后的文档重建分数,衡量与原始文档的 semantic-equivalence程度。RS@20 ≥ 98% 视为该领域"准备就绪"。
主要结果
- 19 个 LLM 测试,最终平均退化 50%
- 前沿模型退化约 25%
- Python 是唯一大多数模型 (17/19) 达到 "ready" 的领域
- 最佳模型 (Gemini 3.1 Pro) 仅在 11/52 领域中 "ready"
相关概念
- backtranslation-round-trip-relay — 评估方法论
- round-trip-reconstruction-score — RS@k 指标
- domain-specific-evaluation — 领域特定解析器设计
- laban-llms-corrupt-documents-delegate — 论文主页面