This commit is contained in:
2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions

View File

@@ -0,0 +1,42 @@
---
title: "GUI-Tool Hybrid Action Space"
created: 2026-05-31
type: concept
tags: [agents, gui, tool-calling, action-space]
---
# GUI-Tool 混合动作空间
**GUI-Tool Hybrid Action Space** 是指 Computer Use Agent 在执行任务时可以在两种不同粒度的动作之间选择的操作空间:
- **$A_{\text{GUI}}$**:原子级 GUI 操作(坐标点击、键盘输入、滚动等)
- **$A_{\text{Tool}}$**高层结构化工具调用API 操作文件、设置应用参数、执行命令等)
形式化定义:$A = A_{\text{GUI}} \cup A_{\text{Tool}}$
## 互补性
| 维度 | GUI 动作 | 工具调用 |
|------|---------|---------|
| **泛化能力** | 广泛(任何可见元素) | 受限(受工具覆盖范围约束) |
| **效率** | 低(多步完成简单操作) | 高(单次调用替代多次 GUI |
| **可靠性** | 低(坐标依赖,易出错) | 高(确定性 API |
| **灵活性** | 高(处理未定义场景) | 低(仅限 predefined APIs |
## 核心困境
**直接暴露混合空间 ≠ 自动获得混合能力**
[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 论文的实验表明,所有基线模型在混合动作空间下的表现**都下降**了:
- EvoCUA-32B: 52.6% → 40.5% (-12.1%)
- Claude-4.5-Sonnet: 61.9% → 48.4% (-13.5%)
- Qwen3VL-8B: 29.0% → 28.2% (-0.8%)
原因是模型缺乏 [[optimal-gui-tool-path-selection|最优路径选择]] 能力——模型不知道**何时切换到工具、何时保持 GUI**。
## 解决方案
[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 提出三阶段训练:
1. 合成 [[interleaved-gui-tool-trajectory-scaling|GUI-Tool 交错数据]]
2. [[tool-bootstrapped-rft|工具引导的强化微调]]
3. [[tool-efficient-path-reward|在线 Agentic RL]]