20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/papers/toolcua-optimal-gui-tool-orchestration.md
+++ b/papers/toolcua-optimal-gui-tool-orchestration.md
@@ -0,0 +1,78 @@
+---
+title: "ToolCUA: Optimal GUI-Tool Path Orchestration for Computer Use Agents"
+created: 2026-05-12
+type: paper
+source: https://arxiv.org/abs/2605.12481
+code: https://github.com/X-PLUG/ToolCUA
+tags: [computer-use-agents, gui-tool-orchestration, reinforcement-learning, trajectory-optimization]
+---
+
+# ToolCUA: 面向 Computer Use Agent 的最优 GUI-Tool 路径编排
+
+**来源**: arXiv:2605.12481 (2026-05-12) | **机构**: Tongyi Lab (阿里巴巴), 复旦大学, 上海人工智能实验室
+
+## 核心问题
+
+Computer Use Agents ([[computer-use-agents|CUAs]]) 面临一个关键挑战：它们可以在**原子 GUI 动作**（点击、输入）和**高层工具调用**（API 操作文件）之间选择，但在 [[gui-tool-hybrid-action-space|混合动作空间]] 中常常犹豫不决——不知道何时继续 GUI 操作、何时切换为工具调用，最终选择次优的执行路径。
+
+**两大根源问题**：
+1. **数据稀缺**：高质量 GUI-Tool 交错轨迹数据极少，收集真实工具轨迹成本高且脆弱
+2. **监督不足**：现有方法仅提供步骤级模仿或最终任务完成信号，缺乏轨迹级别的 GUI-Tool 路径选择反馈
+
+## 方法论：三阶段训练范式
+
+### 阶段一：Interleaved GUI-Tool Trajectory Scaling Pipeline（数据扩展）
+
+[[interleaved-gui-tool-trajectory-scaling|交错 GUI-Tool 轨迹扩展流水线]] 从已有的纯 GUI 轨迹出发，通过 MLLM 合成工具库并将其转化为 GUI-Tool 交错轨迹：
+
+1. **Trajectory Filtering & Balancing**：按执行质量、任务长度、应用覆盖筛选原始 GUI 轨迹
+2. **Trajectory-Aware Tool Library Construction**：MLLM 从 GUI 过程中抽象出可调用的高层操作，合成工具库（从单步包装到多步复合函数）
+3. **Tool Trajectory Generation with Next-State Grounding**：生成等效的纯工具轨迹，并通过 [[next-state-grounding|下一状态锚定]] 验证一致性
+4. **Interleaved GUI-Tool Generation**：随机替换部分工具调用为对应的 GUI 操作序列，生成多样化交错轨迹
+
+### 阶段二：Tool-Bootstrapped GUI RFT（强化微调）
+
+[[tool-bootstrapped-rft|工具引导的 GUI 强化微调]] 分为两个子阶段：
+
+- **Warmup SFT**：在全部交错数据 $\mathcal{D}_{\text{all}}$ 上进行监督微调，建立基础的混合动作能力
+- **Single-Turn RL on Critical Steps**：在关键切换点 $\mathcal{D}_{\text{critical}}$ 上使用 [[grpo|GRPO]] 进行单轮 RL，校准模型在 GUI↔Tool 决策边界的判断
+
+### 阶段三：Online Agentic RL with Tool-Efficient Path Reward（在线强化学习）
+
+在真实的 GUI-Tool 环境中进行多轮 [[grpo|GRPO]] 在线 rollout，使用 [[tool-efficient-path-reward|工具高效路径奖励]] 进行轨迹级优化：
+
+- **$R_{\text{tool}}$（工具适当性奖励）**：鼓励在工具有益任务上使用工具、在无益任务上避免工具调用
+- **$R_{\text{length}}$（路径效率奖励）**：相对于 rollout 组平均步数，对较短轨迹给予线性奖励，较长轨迹呈指数衰减
+
+## 实验结果
+
+在 [[osworld-mcp|OSWorld-MCP]] 基准上：
+
+| 模型 | 准确率 | 相对提升 |
+|------|--------|----------|
+| Qwen3-VL-8B (baseline) | 28.23% | — |
+| **ToolCUA-8B** | **46.85%** | **+66%** |
+| GUI-Owl-1.5-8B | 43.84% | — |
+| Claude-4-Sonnet | 43.54% | — |
+| Claude-4.5-Sonnet | 48.35% | — |
+
+**关键发现**：
+- 在纯 GUI 动作设置下也达到 42.9%，**+3.9%** 超越纯 GUI 训练 → 证明混合动作空间训练的迁移优势
+- TIR（Tool Invocation Rate）显著提升 → 更智能的工具使用决策
+- ACS（Average Completion Steps）下降 → 更高效的执行路径
+- 跨平台迁移：Linux unseen apps 达 23.9%，WindowsAgentArena 达 33.8%
+
+## 关键洞察
+
+1. **"混合动作空间"不是简单的动作空间并集**：直接暴露两种动作空间反而降低性能（如 EvoCUA-32B 从 52.6% 降到 40.5%）。需要专用训练策略来学习何时使用工具。
+
+2. **轨迹级优化 > 步骤级优化**：$R_{\text{tool}} + R_{\text{length}}$ 的组合奖励从全局角度评估整个执行路径，而不仅仅是单步正确性。
+
+3. **合成数据管线的规模效应**：通过重利用现有 GUI 语料库 + MLLM 合成工具，无需昂贵的人工标注即可大规模生成 GUI-Tool 交错轨迹。
+
+## 概念连接
+
+- 核心方法：[[interleaved-gui-tool-trajectory-scaling]] → [[tool-bootstrapped-rft]] → [[tool-efficient-path-reward]]
+- 理论基础：[[gui-tool-hybrid-action-space]] → [[optimal-gui-tool-path-selection]]
+- 评估框架：[[osworld-mcp]]
+- 相关技术：[[grpo]], [[agent-computer-interface]], [[next-state-grounding]], [[agentic-systems]]