--- title: "GUI-Tool Hybrid Action Space" created: 2026-05-31 type: concept tags: [agents, gui, tool-calling, action-space] --- # GUI-Tool 混合动作空间 **GUI-Tool Hybrid Action Space** 是指 Computer Use Agent 在执行任务时可以在两种不同粒度的动作之间选择的操作空间: - **$A_{\text{GUI}}$**:原子级 GUI 操作(坐标点击、键盘输入、滚动等) - **$A_{\text{Tool}}$**:高层结构化工具调用(API 操作文件、设置应用参数、执行命令等) 形式化定义:$A = A_{\text{GUI}} \cup A_{\text{Tool}}$ ## 互补性 | 维度 | GUI 动作 | 工具调用 | |------|---------|---------| | **泛化能力** | 广泛(任何可见元素) | 受限(受工具覆盖范围约束) | | **效率** | 低(多步完成简单操作) | 高(单次调用替代多次 GUI) | | **可靠性** | 低(坐标依赖,易出错) | 高(确定性 API) | | **灵活性** | 高(处理未定义场景) | 低(仅限 predefined APIs) | ## 核心困境 **直接暴露混合空间 ≠ 自动获得混合能力**。 [[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 论文的实验表明,所有基线模型在混合动作空间下的表现**都下降**了: - EvoCUA-32B: 52.6% → 40.5% (-12.1%) - Claude-4.5-Sonnet: 61.9% → 48.4% (-13.5%) - Qwen3VL-8B: 29.0% → 28.2% (-0.8%) 原因是模型缺乏 [[optimal-gui-tool-path-selection|最优路径选择]] 能力——模型不知道**何时切换到工具、何时保持 GUI**。 ## 解决方案 [[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 提出三阶段训练: 1. 合成 [[interleaved-gui-tool-trajectory-scaling|GUI-Tool 交错数据]] 2. [[tool-bootstrapped-rft|工具引导的强化微调]] 3. [[tool-efficient-path-reward|在线 Agentic RL]]