myWiki/concepts/tool-bootstrapped-rft.md

---
title: "Tool-Bootstrapped GUI RFT"
created: 2026-05-31
type: concept
tags: [reinforcement-learning, grpo, gui-tool, sft]
---

# Tool-Bootstrapped GUI RFT（工具引导的 GUI 强化微调）

**Tool-Bootstrapped GUI RFT（Reinforcement Fine-Tuning）** 是 [[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 训练范式的第二阶段，用于在 [[interleaved-gui-tool-trajectory-scaling|合成交错数据]] 上建立混合动作基础并校准关键决策点。

## 两个子阶段

### 1. Warmup SFT（预热监督微调）

在 $\mathcal{D}_{\text{all}}$ 上使用标准交叉熵损失训练：

$$\mathcal{L}_{\text{SFT}} = -\sum \log \pi_\theta(a_t | s_t)$$

**目标**：教会模型 CUA 领域中的多模态工具调用知识：
- 工具使用方法
- 工具参数推理
- 工具执行后的状态理解
- 获得 $\mathcal{M}_{\text{sft}}$

### 2. Single-Turn RL on Critical Steps

在 $\mathcal{D}_{\text{critical}}$（关键切换点）上使用 [[grpo|GRPO]] 进行单轮 RL。

**关键设计**：
- 仅在显式的 GUI↔Tool 切换边界进行优化
- 模型采样多个 completion，接收直接反馈：继续 GUI 还是切换到工具？
- **目标校准**：优化模型在决策边界的判断力

**为什么是 Single-Turn？**
- 这些关键切换点是**独立决策**——不需要完整轨迹回放
- 聚焦于"这一刻该切换吗"这一个核心问题
- 相比 full trajectory RL，更高效且避免稀疏奖励问题

## 两阶段的关系

| 阶段 | 数据 | 目标 | 产出 |
|------|------|------|------|
| Warmup SFT | $\mathcal{D}_{\text{all}}$ | 基础混合动作能力 | $\mathcal{M}_{\text{sft}}$ |
| Single-Turn RL | $\mathcal{D}_{\text{critical}}$ | 切换点决策校准 | $\mathcal{M}_{\text{rft}}$ |

$\mathcal{M}_{\text{rft}}$ 是**协调的 agent**，为下一阶段 [[tool-efficient-path-reward|在线 Agentic RL]] 中的长周期探索做好准备。