---
title: "OSWorld-MCP Benchmark"
created: 2026-05-31
type: concept
tags: [benchmark, computer-use-agents, gui-tool, evaluation]
---

# OSWorld-MCP Benchmark

**OSWorld-MCP** 是 OSWorld 基准测试的扩展版本，专门设计用于评估 [[computer-use-agents|Computer Use Agents]] 在 [[gui-tool-hybrid-action-space|GUI-Tool 混合动作空间]] 中的表现。

## 特性

- **混合动作空间**：覆盖典型 GUI 动作 + 150+ 个预定义工具
- **主流桌面应用**：LibreOffice、Chrome、VSCode、文件管理器等
- **任务划分**：
  - **Tool-Beneficial Tasks**（238 个）：工具使用有助于完成的任务
  - **Non-Tool-Beneficial Tasks**（95 个）：不需要工具即可完成的任务
- **总计**：333 个 feasible tasks

## 评估指标

| 指标 | 含义 |
|------|------|
| **Accuracy** | 任务成功率（核心指标） |
| **TIR** (Tool Invocation Rate) | 工具调用适当率——在有益任务上调用工具、在无益任务上避免工具 |
| **ACS** (Average Completion Steps) | 平均完成步数（效率指标） |
| **Steps** | 轨迹步数 |
| **Tool-calls** | 平均工具调用次数 |

## 在 ToolCUA 中的使用

[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 使用 OSWorld-MCP 作为主要评估基准，并在**多应用域**（multi_apps）上保留作为 OOD 泛化验证。

## 关键结果（8B 级模型）

| 模型 | Accuracy | TIR | ACS |
|------|----------|-----|-----|
| **ToolCUA-8B** | **46.85%** | **41.14%** | **14.48** |
| GUI-Owl-1.5-8B | 43.84% | 36.04% | 22.52 |

## 跨平台泛化

OOD 评估显示 ToolCUA 在未见过的环境中也保持泛化能力：
- 未见 Linux multi_apps 任务：23.9%
- WindowsAgentArena 未见应用：33.8%