Files
myWiki/concepts/delegate-52.md

1.9 KiB

title, created, type, tags, sources
title created type tags sources
DELEGATE-52 2026-05-14 concept
benchmark
document-editing
evaluation
delegated-work
52-domains
https://arxiv.org/abs/2604.15597

DELEGATE-52

DELEGATE-52 是 Microsoft Research 提出的基准测试,用于评估 LLM 在委托工作流中的表现。包含 310 个工作环境,覆盖 52 个专业领域。

设计原则

  • 真实文档:所有种子文档来自真实在线来源(非合成数据),范围 3-5k tokens
  • 可逆编辑:每个编辑任务有正向和反向指令,形成 backtranslation-round-trip-relay
  • 领域特定评估:每个领域有自定义的解析器和语义等价评分函数
  • 干扰上下文:每个环境包含 8-12k tokens 的话题相关但无需编辑的文档

五个领域类别

类别 领域数 示例
Code & Configuration 11 Python, DBSchema, Docker, JSON, Graphviz
Science & Engineering 11 Crystal, Molecule, MathLean, Quantum, Robotics
Creative & Media 11 Music, LaTeX, Slides, Fiction, Weaving
Structured Records 11 Accounting, Genealogy, Spreadsheet, EDIFACT
Everyday 8 Recipe, Chess, Job Board, Playlist, Transit

核心指标

round-trip-reconstruction-score:经过 k 次交互后的文档重建分数,衡量与原始文档的 semantic-equivalence程度。RS@20 ≥ 98% 视为该领域"准备就绪"。

主要结果

  • 19 个 LLM 测试,最终平均退化 50%
  • 前沿模型退化约 25%
  • Python 是唯一大多数模型 (17/19) 达到 "ready" 的领域
  • 最佳模型 (Gemini 3.1 Pro) 仅在 11/52 领域中 "ready"

相关概念