myWiki/concepts/gui-tool-hybrid-action-space.md

---
title: "GUI-Tool Hybrid Action Space"
created: 2026-05-31
type: concept
tags: [agents, gui, tool-calling, action-space]
---

# GUI-Tool 混合动作空间

**GUI-Tool Hybrid Action Space** 是指 Computer Use Agent 在执行任务时可以在两种不同粒度的动作之间选择的操作空间：

- **$A_{\text{GUI}}$**：原子级 GUI 操作（坐标点击、键盘输入、滚动等）
- **$A_{\text{Tool}}$**：高层结构化工具调用（API 操作文件、设置应用参数、执行命令等）

形式化定义：$A = A_{\text{GUI}} \cup A_{\text{Tool}}$

## 互补性

| 维度 | GUI 动作 | 工具调用 |
|------|---------|---------|
| **泛化能力** | 广泛（任何可见元素） | 受限（受工具覆盖范围约束） |
| **效率** | 低（多步完成简单操作） | 高（单次调用替代多次 GUI） |
| **可靠性** | 低（坐标依赖，易出错） | 高（确定性 API） |
| **灵活性** | 高（处理未定义场景） | 低（仅限 predefined APIs） |

## 核心困境

**直接暴露混合空间 ≠ 自动获得混合能力**。

[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 论文的实验表明，所有基线模型在混合动作空间下的表现**都下降**了：
- EvoCUA-32B: 52.6% → 40.5% (-12.1%)
- Claude-4.5-Sonnet: 61.9% → 48.4% (-13.5%)
- Qwen3VL-8B: 29.0% → 28.2% (-0.8%)

原因是模型缺乏 [[optimal-gui-tool-path-selection|最优路径选择]] 能力——模型不知道**何时切换到工具、何时保持 GUI**。

## 解决方案

[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 提出三阶段训练：
1. 合成 [[interleaved-gui-tool-trajectory-scaling|GUI-Tool 交错数据]]
2. [[tool-bootstrapped-rft|工具引导的强化微调]]
3. [[tool-efficient-path-reward|在线 Agentic RL]]