Files
myWiki/concepts/osworld-mcp.md
2026-06-01 10:46:01 +08:00

47 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "OSWorld-MCP Benchmark"
created: 2026-05-31
type: concept
tags: [benchmark, computer-use-agents, gui-tool, evaluation]
---
# OSWorld-MCP Benchmark
**OSWorld-MCP** 是 OSWorld 基准测试的扩展版本,专门设计用于评估 [[computer-use-agents|Computer Use Agents]] 在 [[gui-tool-hybrid-action-space|GUI-Tool 混合动作空间]] 中的表现。
## 特性
- **混合动作空间**:覆盖典型 GUI 动作 + 150+ 个预定义工具
- **主流桌面应用**LibreOffice、Chrome、VSCode、文件管理器等
- **任务划分**
- **Tool-Beneficial Tasks**238 个):工具使用有助于完成的任务
- **Non-Tool-Beneficial Tasks**95 个):不需要工具即可完成的任务
- **总计**333 个 feasible tasks
## 评估指标
| 指标 | 含义 |
|------|------|
| **Accuracy** | 任务成功率(核心指标) |
| **TIR** (Tool Invocation Rate) | 工具调用适当率——在有益任务上调用工具、在无益任务上避免工具 |
| **ACS** (Average Completion Steps) | 平均完成步数(效率指标) |
| **Steps** | 轨迹步数 |
| **Tool-calls** | 平均工具调用次数 |
## 在 ToolCUA 中的使用
[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 使用 OSWorld-MCP 作为主要评估基准,并在**多应用域**multi_apps上保留作为 OOD 泛化验证。
## 关键结果8B 级模型)
| 模型 | Accuracy | TIR | ACS |
|------|----------|-----|-----|
| **ToolCUA-8B** | **46.85%** | **41.14%** | **14.48** |
| GUI-Owl-1.5-8B | 43.84% | 36.04% | 22.52 |
## 跨平台泛化
OOD 评估显示 ToolCUA 在未见过的环境中也保持泛化能力:
- 未见 Linux multi_apps 任务23.9%
- WindowsAgentArena 未见应用33.8%