20260601
This commit is contained in:
42
concepts/gui-tool-hybrid-action-space.md
Normal file
42
concepts/gui-tool-hybrid-action-space.md
Normal file
@@ -0,0 +1,42 @@
|
||||
---
|
||||
title: "GUI-Tool Hybrid Action Space"
|
||||
created: 2026-05-31
|
||||
type: concept
|
||||
tags: [agents, gui, tool-calling, action-space]
|
||||
---
|
||||
|
||||
# GUI-Tool 混合动作空间
|
||||
|
||||
**GUI-Tool Hybrid Action Space** 是指 Computer Use Agent 在执行任务时可以在两种不同粒度的动作之间选择的操作空间:
|
||||
|
||||
- **$A_{\text{GUI}}$**:原子级 GUI 操作(坐标点击、键盘输入、滚动等)
|
||||
- **$A_{\text{Tool}}$**:高层结构化工具调用(API 操作文件、设置应用参数、执行命令等)
|
||||
|
||||
形式化定义:$A = A_{\text{GUI}} \cup A_{\text{Tool}}$
|
||||
|
||||
## 互补性
|
||||
|
||||
| 维度 | GUI 动作 | 工具调用 |
|
||||
|------|---------|---------|
|
||||
| **泛化能力** | 广泛(任何可见元素) | 受限(受工具覆盖范围约束) |
|
||||
| **效率** | 低(多步完成简单操作) | 高(单次调用替代多次 GUI) |
|
||||
| **可靠性** | 低(坐标依赖,易出错) | 高(确定性 API) |
|
||||
| **灵活性** | 高(处理未定义场景) | 低(仅限 predefined APIs) |
|
||||
|
||||
## 核心困境
|
||||
|
||||
**直接暴露混合空间 ≠ 自动获得混合能力**。
|
||||
|
||||
[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 论文的实验表明,所有基线模型在混合动作空间下的表现**都下降**了:
|
||||
- EvoCUA-32B: 52.6% → 40.5% (-12.1%)
|
||||
- Claude-4.5-Sonnet: 61.9% → 48.4% (-13.5%)
|
||||
- Qwen3VL-8B: 29.0% → 28.2% (-0.8%)
|
||||
|
||||
原因是模型缺乏 [[optimal-gui-tool-path-selection|最优路径选择]] 能力——模型不知道**何时切换到工具、何时保持 GUI**。
|
||||
|
||||
## 解决方案
|
||||
|
||||
[[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 提出三阶段训练:
|
||||
1. 合成 [[interleaved-gui-tool-trajectory-scaling|GUI-Tool 交错数据]]
|
||||
2. [[tool-bootstrapped-rft|工具引导的强化微调]]
|
||||
3. [[tool-efficient-path-reward|在线 Agentic RL]]
|
||||
Reference in New Issue
Block a user