Tool-Bootstrapped GUI RFT（工具引导的 GUI 强化微调）

Tool-Bootstrapped GUI RFT（Reinforcement Fine-Tuning） 是 toolcua-optimal-gui-tool-orchestration 训练范式的第二阶段，用于在 interleaved-gui-tool-trajectory-scaling 上建立混合动作基础并校准关键决策点。

两个子阶段

在 \mathcal{D}_{\text{all}} 上使用标准交叉熵损失训练：

\mathcal{L}_{\text{SFT}} = -\sum \log \pi_\theta(a_t | s_t)

目标：教会模型 CUA 领域中的多模态工具调用知识：

在 $\mathcal{D}_{\text{critical}}$（关键切换点）上使用 grpo 进行单轮 RL。

关键设计：

为什么是 Single-Turn？

阶段	数据	目标	产出
Warmup SFT	`\mathcal{D}_{\text{all}}`	基础混合动作能力	`\mathcal{M}_{\text{sft}}`
Single-Turn RL	`\mathcal{D}_{\text{critical}}`	切换点决策校准	`\mathcal{M}_{\text{rft}}`

\mathcal{M}_{\text{rft}} 是协调的 agent，为下一阶段 tool-efficient-path-reward 中的长周期探索做好准备。