Files
myWiki/concepts/delegate-52.md

47 lines
1.9 KiB
Markdown

---
title: "DELEGATE-52"
created: 2026-05-14
type: concept
tags: ["benchmark", "document-editing", "evaluation", "delegated-work", "52-domains"]
sources: ["https://arxiv.org/abs/2604.15597"]
---
# DELEGATE-52
DELEGATE-52 是 Microsoft Research 提出的基准测试,用于评估 LLM 在委托工作流中的表现。包含 310 个工作环境,覆盖 52 个专业领域。
## 设计原则
- **真实文档**:所有种子文档来自真实在线来源(非合成数据),范围 3-5k tokens
- **可逆编辑**:每个编辑任务有正向和反向指令,形成 [[backtranslation-round-trip-relay|回译]]
- **领域特定评估**:每个领域有自定义的解析器和语义等价评分函数
- **干扰上下文**:每个环境包含 8-12k tokens 的话题相关但无需编辑的文档
## 五个领域类别
| 类别 | 领域数 | 示例 |
|------|--------|------|
| Code & Configuration | 11 | Python, DBSchema, Docker, JSON, Graphviz |
| Science & Engineering | 11 | Crystal, Molecule, MathLean, Quantum, Robotics |
| Creative & Media | 11 | Music, LaTeX, Slides, Fiction, Weaving |
| Structured Records | 11 | Accounting, Genealogy, Spreadsheet, EDIFACT |
| Everyday | 8 | Recipe, Chess, Job Board, Playlist, Transit |
## 核心指标
[[round-trip-reconstruction-score|RS@k]]:经过 k 次交互后的文档重建分数,衡量与原始文档的 [[semantic-equivalence|语义等价]]程度。RS@20 ≥ 98% 视为该领域"准备就绪"。
## 主要结果
- 19 个 LLM 测试,最终平均退化 50%
- 前沿模型退化约 25%
- Python 是唯一大多数模型 (17/19) 达到 "ready" 的领域
- 最佳模型 (Gemini 3.1 Pro) 仅在 11/52 领域中 "ready"
## 相关概念
- [[backtranslation-round-trip-relay]] — 评估方法论
- [[round-trip-reconstruction-score]] — RS@k 指标
- [[domain-specific-evaluation]] — 领域特定解析器设计
- [[laban-llms-corrupt-documents-delegate]] — 论文主页面