Files
myWiki/papers/toolcua-optimal-gui-tool-orchestration.md
2026-06-01 10:46:01 +08:00

79 lines
4.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "ToolCUA: Optimal GUI-Tool Path Orchestration for Computer Use Agents"
created: 2026-05-12
type: paper
source: https://arxiv.org/abs/2605.12481
code: https://github.com/X-PLUG/ToolCUA
tags: [computer-use-agents, gui-tool-orchestration, reinforcement-learning, trajectory-optimization]
---
# ToolCUA: 面向 Computer Use Agent 的最优 GUI-Tool 路径编排
**来源**: arXiv:2605.12481 (2026-05-12) | **机构**: Tongyi Lab (阿里巴巴), 复旦大学, 上海人工智能实验室
## 核心问题
Computer Use Agents ([[computer-use-agents|CUAs]]) 面临一个关键挑战:它们可以在**原子 GUI 动作**(点击、输入)和**高层工具调用**API 操作文件)之间选择,但在 [[gui-tool-hybrid-action-space|混合动作空间]] 中常常犹豫不决——不知道何时继续 GUI 操作、何时切换为工具调用,最终选择次优的执行路径。
**两大根源问题**
1. **数据稀缺**:高质量 GUI-Tool 交错轨迹数据极少,收集真实工具轨迹成本高且脆弱
2. **监督不足**:现有方法仅提供步骤级模仿或最终任务完成信号,缺乏轨迹级别的 GUI-Tool 路径选择反馈
## 方法论:三阶段训练范式
### 阶段一Interleaved GUI-Tool Trajectory Scaling Pipeline数据扩展
[[interleaved-gui-tool-trajectory-scaling|交错 GUI-Tool 轨迹扩展流水线]] 从已有的纯 GUI 轨迹出发,通过 MLLM 合成工具库并将其转化为 GUI-Tool 交错轨迹:
1. **Trajectory Filtering & Balancing**:按执行质量、任务长度、应用覆盖筛选原始 GUI 轨迹
2. **Trajectory-Aware Tool Library Construction**MLLM 从 GUI 过程中抽象出可调用的高层操作,合成工具库(从单步包装到多步复合函数)
3. **Tool Trajectory Generation with Next-State Grounding**:生成等效的纯工具轨迹,并通过 [[next-state-grounding|下一状态锚定]] 验证一致性
4. **Interleaved GUI-Tool Generation**:随机替换部分工具调用为对应的 GUI 操作序列,生成多样化交错轨迹
### 阶段二Tool-Bootstrapped GUI RFT强化微调
[[tool-bootstrapped-rft|工具引导的 GUI 强化微调]] 分为两个子阶段:
- **Warmup SFT**:在全部交错数据 $\mathcal{D}_{\text{all}}$ 上进行监督微调,建立基础的混合动作能力
- **Single-Turn RL on Critical Steps**:在关键切换点 $\mathcal{D}_{\text{critical}}$ 上使用 [[grpo|GRPO]] 进行单轮 RL校准模型在 GUI↔Tool 决策边界的判断
### 阶段三Online Agentic RL with Tool-Efficient Path Reward在线强化学习
在真实的 GUI-Tool 环境中进行多轮 [[grpo|GRPO]] 在线 rollout使用 [[tool-efficient-path-reward|工具高效路径奖励]] 进行轨迹级优化:
- **$R_{\text{tool}}$(工具适当性奖励)**:鼓励在工具有益任务上使用工具、在无益任务上避免工具调用
- **$R_{\text{length}}$(路径效率奖励)**:相对于 rollout 组平均步数,对较短轨迹给予线性奖励,较长轨迹呈指数衰减
## 实验结果
在 [[osworld-mcp|OSWorld-MCP]] 基准上:
| 模型 | 准确率 | 相对提升 |
|------|--------|----------|
| Qwen3-VL-8B (baseline) | 28.23% | — |
| **ToolCUA-8B** | **46.85%** | **+66%** |
| GUI-Owl-1.5-8B | 43.84% | — |
| Claude-4-Sonnet | 43.54% | — |
| Claude-4.5-Sonnet | 48.35% | — |
**关键发现**
- 在纯 GUI 动作设置下也达到 42.9%**+3.9%** 超越纯 GUI 训练 → 证明混合动作空间训练的迁移优势
- TIRTool Invocation Rate显著提升 → 更智能的工具使用决策
- ACSAverage Completion Steps下降 → 更高效的执行路径
- 跨平台迁移Linux unseen apps 达 23.9%WindowsAgentArena 达 33.8%
## 关键洞察
1. **"混合动作空间"不是简单的动作空间并集**:直接暴露两种动作空间反而降低性能(如 EvoCUA-32B 从 52.6% 降到 40.5%)。需要专用训练策略来学习何时使用工具。
2. **轨迹级优化 > 步骤级优化**$R_{\text{tool}} + R_{\text{length}}$ 的组合奖励从全局角度评估整个执行路径,而不仅仅是单步正确性。
3. **合成数据管线的规模效应**:通过重利用现有 GUI 语料库 + MLLM 合成工具,无需昂贵的人工标注即可大规模生成 GUI-Tool 交错轨迹。
## 概念连接
- 核心方法:[[interleaved-gui-tool-trajectory-scaling]] → [[tool-bootstrapped-rft]] → [[tool-efficient-path-reward]]
- 理论基础:[[gui-tool-hybrid-action-space]] → [[optimal-gui-tool-path-selection]]
- 评估框架:[[osworld-mcp]]
- 相关技术:[[grpo]], [[agent-computer-interface]], [[next-state-grounding]], [[agentic-systems]]