--- title: "OSWorld-MCP Benchmark" created: 2026-05-31 type: concept tags: [benchmark, computer-use-agents, gui-tool, evaluation] --- # OSWorld-MCP Benchmark **OSWorld-MCP** 是 OSWorld 基准测试的扩展版本,专门设计用于评估 [[computer-use-agents|Computer Use Agents]] 在 [[gui-tool-hybrid-action-space|GUI-Tool 混合动作空间]] 中的表现。 ## 特性 - **混合动作空间**:覆盖典型 GUI 动作 + 150+ 个预定义工具 - **主流桌面应用**:LibreOffice、Chrome、VSCode、文件管理器等 - **任务划分**: - **Tool-Beneficial Tasks**(238 个):工具使用有助于完成的任务 - **Non-Tool-Beneficial Tasks**(95 个):不需要工具即可完成的任务 - **总计**:333 个 feasible tasks ## 评估指标 | 指标 | 含义 | |------|------| | **Accuracy** | 任务成功率(核心指标) | | **TIR** (Tool Invocation Rate) | 工具调用适当率——在有益任务上调用工具、在无益任务上避免工具 | | **ACS** (Average Completion Steps) | 平均完成步数(效率指标) | | **Steps** | 轨迹步数 | | **Tool-calls** | 平均工具调用次数 | ## 在 ToolCUA 中的使用 [[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 使用 OSWorld-MCP 作为主要评估基准,并在**多应用域**(multi_apps)上保留作为 OOD 泛化验证。 ## 关键结果(8B 级模型) | 模型 | Accuracy | TIR | ACS | |------|----------|-----|-----| | **ToolCUA-8B** | **46.85%** | **41.14%** | **14.48** | | GUI-Owl-1.5-8B | 43.84% | 36.04% | 22.52 | ## 跨平台泛化 OOD 评估显示 ToolCUA 在未见过的环境中也保持泛化能力: - 未见 Linux multi_apps 任务:23.9% - WindowsAgentArena 未见应用:33.8%