myWiki/concepts/delegate-52.md

---
title: "DELEGATE-52"
created: 2026-05-14
type: concept
tags: ["benchmark", "document-editing", "evaluation", "delegated-work", "52-domains"]
sources: ["https://arxiv.org/abs/2604.15597"]
---

# DELEGATE-52

DELEGATE-52 是 Microsoft Research 提出的基准测试，用于评估 LLM 在委托工作流中的表现。包含 310 个工作环境，覆盖 52 个专业领域。

## 设计原则

- **真实文档**：所有种子文档来自真实在线来源（非合成数据），范围 3-5k tokens
- **可逆编辑**：每个编辑任务有正向和反向指令，形成 [[backtranslation-round-trip-relay|回译]]
- **领域特定评估**：每个领域有自定义的解析器和语义等价评分函数
- **干扰上下文**：每个环境包含 8-12k tokens 的话题相关但无需编辑的文档

## 五个领域类别

| 类别 | 领域数 | 示例 |
|------|--------|------|
| Code & Configuration | 11 | Python, DBSchema, Docker, JSON, Graphviz |
| Science & Engineering | 11 | Crystal, Molecule, MathLean, Quantum, Robotics |
| Creative & Media | 11 | Music, LaTeX, Slides, Fiction, Weaving |
| Structured Records | 11 | Accounting, Genealogy, Spreadsheet, EDIFACT |
| Everyday | 8 | Recipe, Chess, Job Board, Playlist, Transit |

## 核心指标

[[round-trip-reconstruction-score|RS@k]]：经过 k 次交互后的文档重建分数，衡量与原始文档的 [[semantic-equivalence|语义等价]]程度。RS@20 ≥ 98% 视为该领域"准备就绪"。

## 主要结果

- 19 个 LLM 测试，最终平均退化 50%
- 前沿模型退化约 25%
- Python 是唯一大多数模型 (17/19) 达到 "ready" 的领域
- 最佳模型 (Gemini 3.1 Pro) 仅在 11/52 领域中 "ready"

## 相关概念

- [[backtranslation-round-trip-relay]] — 评估方法论
- [[round-trip-reconstruction-score]] — RS@k 指标
- [[domain-specific-evaluation]] — 领域特定解析器设计
- [[laban-llms-corrupt-documents-delegate]] — 论文主页面