--- title: "Tool-Bootstrapped GUI RFT" created: 2026-05-31 type: concept tags: [reinforcement-learning, grpo, gui-tool, sft] --- # Tool-Bootstrapped GUI RFT(工具引导的 GUI 强化微调) **Tool-Bootstrapped GUI RFT(Reinforcement Fine-Tuning)** 是 [[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 训练范式的第二阶段,用于在 [[interleaved-gui-tool-trajectory-scaling|合成交错数据]] 上建立混合动作基础并校准关键决策点。 ## 两个子阶段 ### 1. Warmup SFT(预热监督微调) 在 $\mathcal{D}_{\text{all}}$ 上使用标准交叉熵损失训练: $$\mathcal{L}_{\text{SFT}} = -\sum \log \pi_\theta(a_t | s_t)$$ **目标**:教会模型 CUA 领域中的多模态工具调用知识: - 工具使用方法 - 工具参数推理 - 工具执行后的状态理解 - 获得 $\mathcal{M}_{\text{sft}}$ ### 2. Single-Turn RL on Critical Steps 在 $\mathcal{D}_{\text{critical}}$(关键切换点)上使用 [[grpo|GRPO]] 进行单轮 RL。 **关键设计**: - 仅在显式的 GUI↔Tool 切换边界进行优化 - 模型采样多个 completion,接收直接反馈:继续 GUI 还是切换到工具? - **目标校准**:优化模型在决策边界的判断力 **为什么是 Single-Turn?** - 这些关键切换点是**独立决策**——不需要完整轨迹回放 - 聚焦于"这一刻该切换吗"这一个核心问题 - 相比 full trajectory RL,更高效且避免稀疏奖励问题 ## 两阶段的关系 | 阶段 | 数据 | 目标 | 产出 | |------|------|------|------| | Warmup SFT | $\mathcal{D}_{\text{all}}$ | 基础混合动作能力 | $\mathcal{M}_{\text{sft}}$ | | Single-Turn RL | $\mathcal{D}_{\text{critical}}$ | 切换点决策校准 | $\mathcal{M}_{\text{rft}}$ | $\mathcal{M}_{\text{rft}}$ 是**协调的 agent**,为下一阶段 [[tool-efficient-path-reward|在线 Agentic RL]] 中的长周期探索做好准备。