Files
myWiki/concepts/gui-tool-hybrid-action-space.md
2026-06-01 10:46:01 +08:00

1.7 KiB
Raw Blame History

title, created, type, tags
title created type tags
GUI-Tool Hybrid Action Space 2026-05-31 concept
agents
gui
tool-calling
action-space

GUI-Tool 混合动作空间

GUI-Tool Hybrid Action Space 是指 Computer Use Agent 在执行任务时可以在两种不同粒度的动作之间选择的操作空间:

  • $A_{\text{GUI}}$:原子级 GUI 操作(坐标点击、键盘输入、滚动等)
  • $A_{\text{Tool}}$高层结构化工具调用API 操作文件、设置应用参数、执行命令等)

形式化定义:A = A_{\text{GUI}} \cup A_{\text{Tool}}

互补性

维度 GUI 动作 工具调用
泛化能力 广泛(任何可见元素) 受限(受工具覆盖范围约束)
效率 低(多步完成简单操作) 高(单次调用替代多次 GUI
可靠性 低(坐标依赖,易出错) 高(确定性 API
灵活性 高(处理未定义场景) 低(仅限 predefined APIs

核心困境

直接暴露混合空间 ≠ 自动获得混合能力

toolcua-optimal-gui-tool-orchestration 论文的实验表明,所有基线模型在混合动作空间下的表现都下降了:

  • EvoCUA-32B: 52.6% → 40.5% (-12.1%)
  • Claude-4.5-Sonnet: 61.9% → 48.4% (-13.5%)
  • Qwen3VL-8B: 29.0% → 28.2% (-0.8%)

原因是模型缺乏 optimal-gui-tool-path-selection 能力——模型不知道何时切换到工具、何时保持 GUI

解决方案

toolcua-optimal-gui-tool-orchestration 提出三阶段训练:

  1. 合成 interleaved-gui-tool-trajectory-scaling
  2. tool-bootstrapped-rft
  3. tool-efficient-path-reward