Optimal GUI-Tool Path Selection（最优 GUI-Tool 路径选择）

Optimal GUI-Tool Path Selection 是 toolcua-optimal-gui-tool-orchestration 论文形式化的核心问题：在 gui-tool-hybrid-action-space 中，动态决定何时使用 GUI 原子操作、何时调用高层工具，以形成高效且可靠的执行轨迹。

问题的层次

这不仅仅是步骤级动作选择（每一步选什么动作），而是轨迹级策略学习：

每一次 GUI→Tool 或 Tool→GUI 的切换决策，不仅解决当前步骤，还重塑整个后续轨迹的效率与可靠性。

为什么难？

监督信号不足
- 步骤级模仿只学到局部动作的合理性
- 最终任务完成信号无法区分"及时的工具切换"和"冗长的 GUI 变通方案"
数据稀缺
- 高质量 GUI-Tool 交错轨迹几乎不存在
- 收集真实工具轨迹需要昂贵的环境仪器化
错误模式多样
- 过度使用工具（Tool-Overuse）：不必要调用反而引入错误
- 工具使用不足（Tool-Underuse）：坚持用 GUI 绕远路

ToolCUA 的解法

纳入 MDP 框架：学习策略 \pi_\theta(a_t | s_t) 最大化累积奖励

通过三阶段训练实现轨迹级优化：

阶段一：interleaved-gui-tool-trajectory-scaling → 建立混合动作基础
阶段二：tool-bootstrapped-rft → 校准决策边界
阶段三：tool-efficient-path-reward → 全局轨迹优化

类比

类似自动驾驶中的"何时变道"问题——不是每个时刻都需要决策，但关键的切换点决定了整体的通行效率。

1.9 KiB Raw Blame History Unescape Escape

Optimal GUI-Tool Path Selection（最优 GUI-Tool 路径选择）

问题的层次

为什么难？

ToolCUA 的解法

类比

1.9 KiB

Raw Blame History