SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.9 KiB

Raw Blame History

title, created, type, tags, sources

title

created

type

tags

sources

DELEGATE-52

2026-05-14

concept

benchmark

document-editing

evaluation

delegated-work

52-domains

https://arxiv.org/abs/2604.15597

DELEGATE-52

DELEGATE-52 是 Microsoft Research 提出的基准测试，用于评估 LLM 在委托工作流中的表现。包含 310 个工作环境，覆盖 52 个专业领域。

设计原则

真实文档：所有种子文档来自真实在线来源（非合成数据），范围 3-5k tokens
可逆编辑：每个编辑任务有正向和反向指令，形成 backtranslation-round-trip-relay
领域特定评估：每个领域有自定义的解析器和语义等价评分函数
干扰上下文：每个环境包含 8-12k tokens 的话题相关但无需编辑的文档

五个领域类别

类别	领域数	示例
Code & Configuration	11	Python, DBSchema, Docker, JSON, Graphviz
Science & Engineering	11	Crystal, Molecule, MathLean, Quantum, Robotics
Creative & Media	11	Music, LaTeX, Slides, Fiction, Weaving
Structured Records	11	Accounting, Genealogy, Spreadsheet, EDIFACT
Everyday	8	Recipe, Chess, Job Board, Playlist, Transit

核心指标

round-trip-reconstruction-score：经过 k 次交互后的文档重建分数，衡量与原始文档的 semantic-equivalence程度。RS@20 ≥ 98% 视为该领域"准备就绪"。

主要结果

19 个 LLM 测试，最终平均退化 50%
前沿模型退化约 25%
Python 是唯一大多数模型 (17/19) 达到 "ready" 的领域
最佳模型 (Gemini 3.1 Pro) 仅在 11/52 领域中 "ready"

相关概念

backtranslation-round-trip-relay — 评估方法论
round-trip-reconstruction-score — RS@k 指标
domain-specific-evaluation — 领域特定解析器设计
laban-llms-corrupt-documents-delegate — 论文主页面