Files
myWiki/concepts/osworld-mcp.md
2026-06-01 10:46:01 +08:00

1.7 KiB
Raw Blame History

title, created, type, tags
title created type tags
OSWorld-MCP Benchmark 2026-05-31 concept
benchmark
computer-use-agents
gui-tool
evaluation

OSWorld-MCP Benchmark

OSWorld-MCP 是 OSWorld 基准测试的扩展版本,专门设计用于评估 computer-use-agentsgui-tool-hybrid-action-space 中的表现。

特性

  • 混合动作空间:覆盖典型 GUI 动作 + 150+ 个预定义工具
  • 主流桌面应用LibreOffice、Chrome、VSCode、文件管理器等
  • 任务划分
    • Tool-Beneficial Tasks238 个):工具使用有助于完成的任务
    • Non-Tool-Beneficial Tasks95 个):不需要工具即可完成的任务
  • 总计333 个 feasible tasks

评估指标

指标 含义
Accuracy 任务成功率(核心指标)
TIR (Tool Invocation Rate) 工具调用适当率——在有益任务上调用工具、在无益任务上避免工具
ACS (Average Completion Steps) 平均完成步数(效率指标)
Steps 轨迹步数
Tool-calls 平均工具调用次数

在 ToolCUA 中的使用

toolcua-optimal-gui-tool-orchestration 使用 OSWorld-MCP 作为主要评估基准,并在多应用域multi_apps上保留作为 OOD 泛化验证。

关键结果8B 级模型)

模型 Accuracy TIR ACS
ToolCUA-8B 46.85% 41.14% 14.48
GUI-Owl-1.5-8B 43.84% 36.04% 22.52

跨平台泛化

OOD 评估显示 ToolCUA 在未见过的环境中也保持泛化能力:

  • 未见 Linux multi_apps 任务23.9%
  • WindowsAgentArena 未见应用33.8%