47 lines
1.7 KiB
Markdown
47 lines
1.7 KiB
Markdown
---
|
||
title: "OSWorld-MCP Benchmark"
|
||
created: 2026-05-31
|
||
type: concept
|
||
tags: [benchmark, computer-use-agents, gui-tool, evaluation]
|
||
---
|
||
|
||
# OSWorld-MCP Benchmark
|
||
|
||
**OSWorld-MCP** 是 OSWorld 基准测试的扩展版本,专门设计用于评估 [[computer-use-agents|Computer Use Agents]] 在 [[gui-tool-hybrid-action-space|GUI-Tool 混合动作空间]] 中的表现。
|
||
|
||
## 特性
|
||
|
||
- **混合动作空间**:覆盖典型 GUI 动作 + 150+ 个预定义工具
|
||
- **主流桌面应用**:LibreOffice、Chrome、VSCode、文件管理器等
|
||
- **任务划分**:
|
||
- **Tool-Beneficial Tasks**(238 个):工具使用有助于完成的任务
|
||
- **Non-Tool-Beneficial Tasks**(95 个):不需要工具即可完成的任务
|
||
- **总计**:333 个 feasible tasks
|
||
|
||
## 评估指标
|
||
|
||
| 指标 | 含义 |
|
||
|------|------|
|
||
| **Accuracy** | 任务成功率(核心指标) |
|
||
| **TIR** (Tool Invocation Rate) | 工具调用适当率——在有益任务上调用工具、在无益任务上避免工具 |
|
||
| **ACS** (Average Completion Steps) | 平均完成步数(效率指标) |
|
||
| **Steps** | 轨迹步数 |
|
||
| **Tool-calls** | 平均工具调用次数 |
|
||
|
||
## 在 ToolCUA 中的使用
|
||
|
||
[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 使用 OSWorld-MCP 作为主要评估基准,并在**多应用域**(multi_apps)上保留作为 OOD 泛化验证。
|
||
|
||
## 关键结果(8B 级模型)
|
||
|
||
| 模型 | Accuracy | TIR | ACS |
|
||
|------|----------|-----|-----|
|
||
| **ToolCUA-8B** | **46.85%** | **41.14%** | **14.48** |
|
||
| GUI-Owl-1.5-8B | 43.84% | 36.04% | 22.52 |
|
||
|
||
## 跨平台泛化
|
||
|
||
OOD 评估显示 ToolCUA 在未见过的环境中也保持泛化能力:
|
||
- 未见 Linux multi_apps 任务:23.9%
|
||
- WindowsAgentArena 未见应用:33.8%
|