1.9 KiB
1.9 KiB
title, created, type, tags
| title | created | type | tags | ||||
|---|---|---|---|---|---|---|---|
| Tool-Bootstrapped GUI RFT | 2026-05-31 | concept |
|
Tool-Bootstrapped GUI RFT(工具引导的 GUI 强化微调)
Tool-Bootstrapped GUI RFT(Reinforcement Fine-Tuning) 是 toolcua-optimal-gui-tool-orchestration 训练范式的第二阶段,用于在 interleaved-gui-tool-trajectory-scaling 上建立混合动作基础并校准关键决策点。
两个子阶段
1. Warmup SFT(预热监督微调)
在 \mathcal{D}_{\text{all}} 上使用标准交叉熵损失训练:
\mathcal{L}_{\text{SFT}} = -\sum \log \pi_\theta(a_t | s_t)
目标:教会模型 CUA 领域中的多模态工具调用知识:
- 工具使用方法
- 工具参数推理
- 工具执行后的状态理解
- 获得
\mathcal{M}_{\text{sft}}
2. Single-Turn RL on Critical Steps
在 $\mathcal{D}_{\text{critical}}$(关键切换点)上使用 grpo 进行单轮 RL。
关键设计:
- 仅在显式的 GUI↔Tool 切换边界进行优化
- 模型采样多个 completion,接收直接反馈:继续 GUI 还是切换到工具?
- 目标校准:优化模型在决策边界的判断力
为什么是 Single-Turn?
- 这些关键切换点是独立决策——不需要完整轨迹回放
- 聚焦于"这一刻该切换吗"这一个核心问题
- 相比 full trajectory RL,更高效且避免稀疏奖励问题
两阶段的关系
| 阶段 | 数据 | 目标 | 产出 |
|---|---|---|---|
| Warmup SFT | \mathcal{D}_{\text{all}} |
基础混合动作能力 | \mathcal{M}_{\text{sft}} |
| Single-Turn RL | \mathcal{D}_{\text{critical}} |
切换点决策校准 | \mathcal{M}_{\text{rft}} |
\mathcal{M}_{\text{rft}} 是协调的 agent,为下一阶段 tool-efficient-path-reward 中的长周期探索做好准备。