OSWorld-MCP Benchmark

OSWorld-MCP 是 OSWorld 基准测试的扩展版本，专门设计用于评估 computer-use-agents 在 gui-tool-hybrid-action-space 中的表现。

特性

混合动作空间：覆盖典型 GUI 动作 + 150+ 个预定义工具
主流桌面应用：LibreOffice、Chrome、VSCode、文件管理器等
任务划分：
- Tool-Beneficial Tasks（238 个）：工具使用有助于完成的任务
- Non-Tool-Beneficial Tasks（95 个）：不需要工具即可完成的任务
总计：333 个 feasible tasks

指标	含义
Accuracy	任务成功率（核心指标）
TIR (Tool Invocation Rate)	工具调用适当率——在有益任务上调用工具、在无益任务上避免工具
ACS (Average Completion Steps)	平均完成步数（效率指标）
Steps	轨迹步数
Tool-calls	平均工具调用次数

toolcua-optimal-gui-tool-orchestration 使用 OSWorld-MCP 作为主要评估基准，并在多应用域（multi_apps）上保留作为 OOD 泛化验证。

模型	Accuracy	TIR	ACS
ToolCUA-8B	46.85%	41.14%	14.48
GUI-Owl-1.5-8B	43.84%	36.04%	22.52

OOD 评估显示 ToolCUA 在未见过的环境中也保持泛化能力：