Files
myWiki/concepts/gui-tool-hybrid-action-space.md
2026-06-01 10:46:01 +08:00

43 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "GUI-Tool Hybrid Action Space"
created: 2026-05-31
type: concept
tags: [agents, gui, tool-calling, action-space]
---
# GUI-Tool 混合动作空间
**GUI-Tool Hybrid Action Space** 是指 Computer Use Agent 在执行任务时可以在两种不同粒度的动作之间选择的操作空间:
- **$A_{\text{GUI}}$**:原子级 GUI 操作(坐标点击、键盘输入、滚动等)
- **$A_{\text{Tool}}$**高层结构化工具调用API 操作文件、设置应用参数、执行命令等)
形式化定义:$A = A_{\text{GUI}} \cup A_{\text{Tool}}$
## 互补性
| 维度 | GUI 动作 | 工具调用 |
|------|---------|---------|
| **泛化能力** | 广泛(任何可见元素) | 受限(受工具覆盖范围约束) |
| **效率** | 低(多步完成简单操作) | 高(单次调用替代多次 GUI |
| **可靠性** | 低(坐标依赖,易出错) | 高(确定性 API |
| **灵活性** | 高(处理未定义场景) | 低(仅限 predefined APIs |
## 核心困境
**直接暴露混合空间 ≠ 自动获得混合能力**
[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 论文的实验表明,所有基线模型在混合动作空间下的表现**都下降**了:
- EvoCUA-32B: 52.6% → 40.5% (-12.1%)
- Claude-4.5-Sonnet: 61.9% → 48.4% (-13.5%)
- Qwen3VL-8B: 29.0% → 28.2% (-0.8%)
原因是模型缺乏 [[optimal-gui-tool-path-selection|最优路径选择]] 能力——模型不知道**何时切换到工具、何时保持 GUI**。
## 解决方案
[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 提出三阶段训练:
1. 合成 [[interleaved-gui-tool-trajectory-scaling|GUI-Tool 交错数据]]
2. [[tool-bootstrapped-rft|工具引导的强化微调]]
3. [[tool-efficient-path-reward|在线 Agentic RL]]