1.7 KiB
1.7 KiB
title, created, type, tags
| title | created | type | tags | ||||
|---|---|---|---|---|---|---|---|
| GUI-Tool Hybrid Action Space | 2026-05-31 | concept |
|
GUI-Tool 混合动作空间
GUI-Tool Hybrid Action Space 是指 Computer Use Agent 在执行任务时可以在两种不同粒度的动作之间选择的操作空间:
- $A_{\text{GUI}}$:原子级 GUI 操作(坐标点击、键盘输入、滚动等)
- $A_{\text{Tool}}$:高层结构化工具调用(API 操作文件、设置应用参数、执行命令等)
形式化定义:A = A_{\text{GUI}} \cup A_{\text{Tool}}
互补性
| 维度 | GUI 动作 | 工具调用 |
|---|---|---|
| 泛化能力 | 广泛(任何可见元素) | 受限(受工具覆盖范围约束) |
| 效率 | 低(多步完成简单操作) | 高(单次调用替代多次 GUI) |
| 可靠性 | 低(坐标依赖,易出错) | 高(确定性 API) |
| 灵活性 | 高(处理未定义场景) | 低(仅限 predefined APIs) |
核心困境
直接暴露混合空间 ≠ 自动获得混合能力。
toolcua-optimal-gui-tool-orchestration 论文的实验表明,所有基线模型在混合动作空间下的表现都下降了:
- EvoCUA-32B: 52.6% → 40.5% (-12.1%)
- Claude-4.5-Sonnet: 61.9% → 48.4% (-13.5%)
- Qwen3VL-8B: 29.0% → 28.2% (-0.8%)
原因是模型缺乏 optimal-gui-tool-path-selection 能力——模型不知道何时切换到工具、何时保持 GUI。