Files
myWiki/concepts/optimal-gui-tool-path-selection.md
2026-06-01 10:46:01 +08:00

1.9 KiB
Raw Blame History

title, created, type, tags
title created type tags
Optimal GUI-Tool Path Selection 2026-05-31 concept
agents
gui-tool
trajectory-optimization
reinforcement-learning

Optimal GUI-Tool Path Selection最优 GUI-Tool 路径选择)

Optimal GUI-Tool Path Selectiontoolcua-optimal-gui-tool-orchestration 论文形式化的核心问题:在 gui-tool-hybrid-action-space 中,动态决定何时使用 GUI 原子操作、何时调用高层工具,以形成高效且可靠的执行轨迹。

问题的层次

这不仅仅是步骤级动作选择(每一步选什么动作),而是轨迹级策略学习

每一次 GUI→Tool 或 Tool→GUI 的切换决策,不仅解决当前步骤,还重塑整个后续轨迹的效率与可靠性。

为什么难?

  1. 监督信号不足

    • 步骤级模仿只学到局部动作的合理性
    • 最终任务完成信号无法区分"及时的工具切换"和"冗长的 GUI 变通方案"
  2. 数据稀缺

    • 高质量 GUI-Tool 交错轨迹几乎不存在
    • 收集真实工具轨迹需要昂贵的环境仪器化
  3. 错误模式多样

    • 过度使用工具Tool-Overuse不必要调用反而引入错误
    • 工具使用不足Tool-Underuse坚持用 GUI 绕远路

ToolCUA 的解法

纳入 MDP 框架:学习策略 \pi_\theta(a_t | s_t) 最大化累积奖励

通过三阶段训练实现轨迹级优化:

类比

类似自动驾驶中的"何时变道"问题——不是每个时刻都需要决策,但关键的切换点决定了整体的通行效率。