This commit is contained in:
2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions

46
concepts/osworld-mcp.md Normal file
View File

@@ -0,0 +1,46 @@
---
title: "OSWorld-MCP Benchmark"
created: 2026-05-31
type: concept
tags: [benchmark, computer-use-agents, gui-tool, evaluation]
---
# OSWorld-MCP Benchmark
**OSWorld-MCP** 是 OSWorld 基准测试的扩展版本,专门设计用于评估 [[computer-use-agents|Computer Use Agents]] 在 [[gui-tool-hybrid-action-space|GUI-Tool 混合动作空间]] 中的表现。
## 特性
- **混合动作空间**:覆盖典型 GUI 动作 + 150+ 个预定义工具
- **主流桌面应用**LibreOffice、Chrome、VSCode、文件管理器等
- **任务划分**
- **Tool-Beneficial Tasks**238 个):工具使用有助于完成的任务
- **Non-Tool-Beneficial Tasks**95 个):不需要工具即可完成的任务
- **总计**333 个 feasible tasks
## 评估指标
| 指标 | 含义 |
|------|------|
| **Accuracy** | 任务成功率(核心指标) |
| **TIR** (Tool Invocation Rate) | 工具调用适当率——在有益任务上调用工具、在无益任务上避免工具 |
| **ACS** (Average Completion Steps) | 平均完成步数(效率指标) |
| **Steps** | 轨迹步数 |
| **Tool-calls** | 平均工具调用次数 |
## 在 ToolCUA 中的使用
[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 使用 OSWorld-MCP 作为主要评估基准,并在**多应用域**multi_apps上保留作为 OOD 泛化验证。
## 关键结果8B 级模型)
| 模型 | Accuracy | TIR | ACS |
|------|----------|-----|-----|
| **ToolCUA-8B** | **46.85%** | **41.14%** | **14.48** |
| GUI-Owl-1.5-8B | 43.84% | 36.04% | 22.52 |
## 跨平台泛化
OOD 评估显示 ToolCUA 在未见过的环境中也保持泛化能力:
- 未见 Linux multi_apps 任务23.9%
- WindowsAgentArena 未见应用33.8%