20260601
This commit is contained in:
46
concepts/osworld-mcp.md
Normal file
46
concepts/osworld-mcp.md
Normal file
@@ -0,0 +1,46 @@
|
||||
---
|
||||
title: "OSWorld-MCP Benchmark"
|
||||
created: 2026-05-31
|
||||
type: concept
|
||||
tags: [benchmark, computer-use-agents, gui-tool, evaluation]
|
||||
---
|
||||
|
||||
# OSWorld-MCP Benchmark
|
||||
|
||||
**OSWorld-MCP** 是 OSWorld 基准测试的扩展版本,专门设计用于评估 [[computer-use-agents|Computer Use Agents]] 在 [[gui-tool-hybrid-action-space|GUI-Tool 混合动作空间]] 中的表现。
|
||||
|
||||
## 特性
|
||||
|
||||
- **混合动作空间**:覆盖典型 GUI 动作 + 150+ 个预定义工具
|
||||
- **主流桌面应用**:LibreOffice、Chrome、VSCode、文件管理器等
|
||||
- **任务划分**:
|
||||
- **Tool-Beneficial Tasks**(238 个):工具使用有助于完成的任务
|
||||
- **Non-Tool-Beneficial Tasks**(95 个):不需要工具即可完成的任务
|
||||
- **总计**:333 个 feasible tasks
|
||||
|
||||
## 评估指标
|
||||
|
||||
| 指标 | 含义 |
|
||||
|------|------|
|
||||
| **Accuracy** | 任务成功率(核心指标) |
|
||||
| **TIR** (Tool Invocation Rate) | 工具调用适当率——在有益任务上调用工具、在无益任务上避免工具 |
|
||||
| **ACS** (Average Completion Steps) | 平均完成步数(效率指标) |
|
||||
| **Steps** | 轨迹步数 |
|
||||
| **Tool-calls** | 平均工具调用次数 |
|
||||
|
||||
## 在 ToolCUA 中的使用
|
||||
|
||||
[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 使用 OSWorld-MCP 作为主要评估基准,并在**多应用域**(multi_apps)上保留作为 OOD 泛化验证。
|
||||
|
||||
## 关键结果(8B 级模型)
|
||||
|
||||
| 模型 | Accuracy | TIR | ACS |
|
||||
|------|----------|-----|-----|
|
||||
| **ToolCUA-8B** | **46.85%** | **41.14%** | **14.48** |
|
||||
| GUI-Owl-1.5-8B | 43.84% | 36.04% | 22.52 |
|
||||
|
||||
## 跨平台泛化
|
||||
|
||||
OOD 评估显示 ToolCUA 在未见过的环境中也保持泛化能力:
|
||||
- 未见 Linux multi_apps 任务:23.9%
|
||||
- WindowsAgentArena 未见应用:33.8%
|
||||
Reference in New Issue
Block a user