Files
myWiki/concepts/optimal-gui-tool-path-selection.md
2026-06-01 10:46:01 +08:00

44 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Optimal GUI-Tool Path Selection"
created: 2026-05-31
type: concept
tags: [agents, gui-tool, trajectory-optimization, reinforcement-learning]
---
# Optimal GUI-Tool Path Selection最优 GUI-Tool 路径选择)
**Optimal GUI-Tool Path Selection** 是 [[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 论文形式化的核心问题:在 [[gui-tool-hybrid-action-space|GUI-Tool 混合动作空间]] 中,动态决定何时使用 GUI 原子操作、何时调用高层工具,以形成**高效且可靠**的执行轨迹。
## 问题的层次
这不仅仅是**步骤级动作选择**(每一步选什么动作),而是**轨迹级策略学习**
> 每一次 GUI→Tool 或 Tool→GUI 的切换决策,不仅解决当前步骤,还**重塑整个后续轨迹**的效率与可靠性。
## 为什么难?
1. **监督信号不足**
- 步骤级模仿只学到局部动作的合理性
- 最终任务完成信号无法区分"及时的工具切换"和"冗长的 GUI 变通方案"
2. **数据稀缺**
- 高质量 GUI-Tool 交错轨迹几乎不存在
- 收集真实工具轨迹需要昂贵的环境仪器化
3. **错误模式多样**
- **过度使用工具**Tool-Overuse不必要调用反而引入错误
- **工具使用不足**Tool-Underuse坚持用 GUI 绕远路
## ToolCUA 的解法
纳入 MDP 框架:学习策略 $\pi_\theta(a_t | s_t)$ 最大化累积奖励
通过三阶段训练实现轨迹级优化:
- **阶段一**[[interleaved-gui-tool-trajectory-scaling|合成交错数据]] → 建立混合动作基础
- **阶段二**[[tool-bootstrapped-rft|关键切换点 RL]] → 校准决策边界
- **阶段三**[[tool-efficient-path-reward|工具高效路径奖励]] → 全局轨迹优化
## 类比
类似自动驾驶中的"何时变道"问题——不是每个时刻都需要决策,但关键的切换点决定了整体的通行效率。