1.9 KiB
1.9 KiB
title, created, type, tags
| title | created | type | tags | ||||
|---|---|---|---|---|---|---|---|
| Optimal GUI-Tool Path Selection | 2026-05-31 | concept |
|
Optimal GUI-Tool Path Selection(最优 GUI-Tool 路径选择)
Optimal GUI-Tool Path Selection 是 toolcua-optimal-gui-tool-orchestration 论文形式化的核心问题:在 gui-tool-hybrid-action-space 中,动态决定何时使用 GUI 原子操作、何时调用高层工具,以形成高效且可靠的执行轨迹。
问题的层次
这不仅仅是步骤级动作选择(每一步选什么动作),而是轨迹级策略学习:
每一次 GUI→Tool 或 Tool→GUI 的切换决策,不仅解决当前步骤,还重塑整个后续轨迹的效率与可靠性。
为什么难?
-
监督信号不足
- 步骤级模仿只学到局部动作的合理性
- 最终任务完成信号无法区分"及时的工具切换"和"冗长的 GUI 变通方案"
-
数据稀缺
- 高质量 GUI-Tool 交错轨迹几乎不存在
- 收集真实工具轨迹需要昂贵的环境仪器化
-
错误模式多样
- 过度使用工具(Tool-Overuse):不必要调用反而引入错误
- 工具使用不足(Tool-Underuse):坚持用 GUI 绕远路
ToolCUA 的解法
纳入 MDP 框架:学习策略 \pi_\theta(a_t | s_t) 最大化累积奖励
通过三阶段训练实现轨迹级优化:
- 阶段一:interleaved-gui-tool-trajectory-scaling → 建立混合动作基础
- 阶段二:tool-bootstrapped-rft → 校准决策边界
- 阶段三:tool-efficient-path-reward → 全局轨迹优化
类比
类似自动驾驶中的"何时变道"问题——不是每个时刻都需要决策,但关键的切换点决定了整体的通行效率。