Files
myWiki/papers/toolcua-optimal-gui-tool-orchestration.md
2026-06-01 10:46:01 +08:00

4.6 KiB
Raw Blame History

title, created, type, source, code, tags
title created type source code tags
ToolCUA: Optimal GUI-Tool Path Orchestration for Computer Use Agents 2026-05-12 paper https://arxiv.org/abs/2605.12481 https://github.com/X-PLUG/ToolCUA
computer-use-agents
gui-tool-orchestration
reinforcement-learning
trajectory-optimization

ToolCUA: 面向 Computer Use Agent 的最优 GUI-Tool 路径编排

来源: arXiv:2605.12481 (2026-05-12) | 机构: Tongyi Lab (阿里巴巴), 复旦大学, 上海人工智能实验室

核心问题

Computer Use Agents (computer-use-agents) 面临一个关键挑战:它们可以在原子 GUI 动作(点击、输入)和高层工具调用API 操作文件)之间选择,但在 gui-tool-hybrid-action-space 中常常犹豫不决——不知道何时继续 GUI 操作、何时切换为工具调用,最终选择次优的执行路径。

两大根源问题

  1. 数据稀缺:高质量 GUI-Tool 交错轨迹数据极少,收集真实工具轨迹成本高且脆弱
  2. 监督不足:现有方法仅提供步骤级模仿或最终任务完成信号,缺乏轨迹级别的 GUI-Tool 路径选择反馈

方法论:三阶段训练范式

阶段一Interleaved GUI-Tool Trajectory Scaling Pipeline数据扩展

interleaved-gui-tool-trajectory-scaling 从已有的纯 GUI 轨迹出发,通过 MLLM 合成工具库并将其转化为 GUI-Tool 交错轨迹:

  1. Trajectory Filtering & Balancing:按执行质量、任务长度、应用覆盖筛选原始 GUI 轨迹
  2. Trajectory-Aware Tool Library ConstructionMLLM 从 GUI 过程中抽象出可调用的高层操作,合成工具库(从单步包装到多步复合函数)
  3. Tool Trajectory Generation with Next-State Grounding:生成等效的纯工具轨迹,并通过 next-state-grounding 验证一致性
  4. Interleaved GUI-Tool Generation:随机替换部分工具调用为对应的 GUI 操作序列,生成多样化交错轨迹

阶段二Tool-Bootstrapped GUI RFT强化微调

tool-bootstrapped-rft 分为两个子阶段:

  • Warmup SFT:在全部交错数据 \mathcal{D}_{\text{all}} 上进行监督微调,建立基础的混合动作能力
  • Single-Turn RL on Critical Steps:在关键切换点 \mathcal{D}_{\text{critical}} 上使用 grpo 进行单轮 RL校准模型在 GUI↔Tool 决策边界的判断

阶段三Online Agentic RL with Tool-Efficient Path Reward在线强化学习

在真实的 GUI-Tool 环境中进行多轮 grpo 在线 rollout使用 tool-efficient-path-reward 进行轨迹级优化:

  • $R_{\text{tool}}$(工具适当性奖励):鼓励在工具有益任务上使用工具、在无益任务上避免工具调用
  • $R_{\text{length}}$(路径效率奖励):相对于 rollout 组平均步数,对较短轨迹给予线性奖励,较长轨迹呈指数衰减

实验结果

osworld-mcp 基准上:

模型 准确率 相对提升
Qwen3-VL-8B (baseline) 28.23%
ToolCUA-8B 46.85% +66%
GUI-Owl-1.5-8B 43.84%
Claude-4-Sonnet 43.54%
Claude-4.5-Sonnet 48.35%

关键发现

  • 在纯 GUI 动作设置下也达到 42.9%+3.9% 超越纯 GUI 训练 → 证明混合动作空间训练的迁移优势
  • TIRTool Invocation Rate显著提升 → 更智能的工具使用决策
  • ACSAverage Completion Steps下降 → 更高效的执行路径
  • 跨平台迁移Linux unseen apps 达 23.9%WindowsAgentArena 达 33.8%

关键洞察

  1. "混合动作空间"不是简单的动作空间并集:直接暴露两种动作空间反而降低性能(如 EvoCUA-32B 从 52.6% 降到 40.5%)。需要专用训练策略来学习何时使用工具。

  2. 轨迹级优化 > 步骤级优化R_{\text{tool}} + R_{\text{length}} 的组合奖励从全局角度评估整个执行路径,而不仅仅是单步正确性。

  3. 合成数据管线的规模效应:通过重利用现有 GUI 语料库 + MLLM 合成工具,无需昂贵的人工标注即可大规模生成 GUI-Tool 交错轨迹。

概念连接