1.7 KiB
1.7 KiB
title, created, type, tags
| title | created | type | tags | ||||
|---|---|---|---|---|---|---|---|
| OSWorld-MCP Benchmark | 2026-05-31 | concept |
|
OSWorld-MCP Benchmark
OSWorld-MCP 是 OSWorld 基准测试的扩展版本,专门设计用于评估 computer-use-agents 在 gui-tool-hybrid-action-space 中的表现。
特性
- 混合动作空间:覆盖典型 GUI 动作 + 150+ 个预定义工具
- 主流桌面应用:LibreOffice、Chrome、VSCode、文件管理器等
- 任务划分:
- Tool-Beneficial Tasks(238 个):工具使用有助于完成的任务
- Non-Tool-Beneficial Tasks(95 个):不需要工具即可完成的任务
- 总计:333 个 feasible tasks
评估指标
| 指标 | 含义 |
|---|---|
| Accuracy | 任务成功率(核心指标) |
| TIR (Tool Invocation Rate) | 工具调用适当率——在有益任务上调用工具、在无益任务上避免工具 |
| ACS (Average Completion Steps) | 平均完成步数(效率指标) |
| Steps | 轨迹步数 |
| Tool-calls | 平均工具调用次数 |
在 ToolCUA 中的使用
toolcua-optimal-gui-tool-orchestration 使用 OSWorld-MCP 作为主要评估基准,并在多应用域(multi_apps)上保留作为 OOD 泛化验证。
关键结果(8B 级模型)
| 模型 | Accuracy | TIR | ACS |
|---|---|---|---|
| ToolCUA-8B | 46.85% | 41.14% | 14.48 |
| GUI-Owl-1.5-8B | 43.84% | 36.04% | 22.52 |
跨平台泛化
OOD 评估显示 ToolCUA 在未见过的环境中也保持泛化能力:
- 未见 Linux multi_apps 任务:23.9%
- WindowsAgentArena 未见应用:33.8%