20260601
This commit is contained in:
43
concepts/optimal-gui-tool-path-selection.md
Normal file
43
concepts/optimal-gui-tool-path-selection.md
Normal file
@@ -0,0 +1,43 @@
|
||||
---
|
||||
title: "Optimal GUI-Tool Path Selection"
|
||||
created: 2026-05-31
|
||||
type: concept
|
||||
tags: [agents, gui-tool, trajectory-optimization, reinforcement-learning]
|
||||
---
|
||||
|
||||
# Optimal GUI-Tool Path Selection(最优 GUI-Tool 路径选择)
|
||||
|
||||
**Optimal GUI-Tool Path Selection** 是 [[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 论文形式化的核心问题:在 [[gui-tool-hybrid-action-space|GUI-Tool 混合动作空间]] 中,动态决定何时使用 GUI 原子操作、何时调用高层工具,以形成**高效且可靠**的执行轨迹。
|
||||
|
||||
## 问题的层次
|
||||
|
||||
这不仅仅是**步骤级动作选择**(每一步选什么动作),而是**轨迹级策略学习**:
|
||||
|
||||
> 每一次 GUI→Tool 或 Tool→GUI 的切换决策,不仅解决当前步骤,还**重塑整个后续轨迹**的效率与可靠性。
|
||||
|
||||
## 为什么难?
|
||||
|
||||
1. **监督信号不足**
|
||||
- 步骤级模仿只学到局部动作的合理性
|
||||
- 最终任务完成信号无法区分"及时的工具切换"和"冗长的 GUI 变通方案"
|
||||
|
||||
2. **数据稀缺**
|
||||
- 高质量 GUI-Tool 交错轨迹几乎不存在
|
||||
- 收集真实工具轨迹需要昂贵的环境仪器化
|
||||
|
||||
3. **错误模式多样**
|
||||
- **过度使用工具**(Tool-Overuse):不必要调用反而引入错误
|
||||
- **工具使用不足**(Tool-Underuse):坚持用 GUI 绕远路
|
||||
|
||||
## ToolCUA 的解法
|
||||
|
||||
纳入 MDP 框架:学习策略 $\pi_\theta(a_t | s_t)$ 最大化累积奖励
|
||||
|
||||
通过三阶段训练实现轨迹级优化:
|
||||
- **阶段一**:[[interleaved-gui-tool-trajectory-scaling|合成交错数据]] → 建立混合动作基础
|
||||
- **阶段二**:[[tool-bootstrapped-rft|关键切换点 RL]] → 校准决策边界
|
||||
- **阶段三**:[[tool-efficient-path-reward|工具高效路径奖励]] → 全局轨迹优化
|
||||
|
||||
## 类比
|
||||
|
||||
类似自动驾驶中的"何时变道"问题——不是每个时刻都需要决策,但关键的切换点决定了整体的通行效率。
|
||||
Reference in New Issue
Block a user