20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/tool-bootstrapped-rft.md
+++ b/concepts/tool-bootstrapped-rft.md
@@ -0,0 +1,47 @@
+---
+title: "Tool-Bootstrapped GUI RFT"
+created: 2026-05-31
+type: concept
+tags: [reinforcement-learning, grpo, gui-tool, sft]
+---
+
+# Tool-Bootstrapped GUI RFT（工具引导的 GUI 强化微调）
+
+**Tool-Bootstrapped GUI RFT（Reinforcement Fine-Tuning）** 是 [[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 训练范式的第二阶段，用于在 [[interleaved-gui-tool-trajectory-scaling|合成交错数据]] 上建立混合动作基础并校准关键决策点。
+
+## 两个子阶段
+
+### 1. Warmup SFT（预热监督微调）
+
+在 $\mathcal{D}_{\text{all}}$ 上使用标准交叉熵损失训练：
+
+$$\mathcal{L}_{\text{SFT}} = -\sum \log \pi_\theta(a_t | s_t)$$
+
+**目标**：教会模型 CUA 领域中的多模态工具调用知识：
+- 工具使用方法
+- 工具参数推理
+- 工具执行后的状态理解
+- 获得 $\mathcal{M}_{\text{sft}}$
+
+### 2. Single-Turn RL on Critical Steps
+
+在 $\mathcal{D}_{\text{critical}}$（关键切换点）上使用 [[grpo|GRPO]] 进行单轮 RL。
+
+**关键设计**：
+- 仅在显式的 GUI↔Tool 切换边界进行优化
+- 模型采样多个 completion，接收直接反馈：继续 GUI 还是切换到工具？
+- **目标校准**：优化模型在决策边界的判断力
+
+**为什么是 Single-Turn？**
+- 这些关键切换点是**独立决策**——不需要完整轨迹回放
+- 聚焦于"这一刻该切换吗"这一个核心问题
+- 相比 full trajectory RL，更高效且避免稀疏奖励问题
+
+## 两阶段的关系
+
+| 阶段 | 数据 | 目标 | 产出 |
+|------|------|------|------|
+| Warmup SFT | $\mathcal{D}_{\text{all}}$ | 基础混合动作能力 | $\mathcal{M}_{\text{sft}}$ |
+| Single-Turn RL | $\mathcal{D}_{\text{critical}}$ | 切换点决策校准 | $\mathcal{M}_{\text{rft}}$ |
+
+$\mathcal{M}_{\text{rft}}$ 是**协调的 agent**，为下一阶段 [[tool-efficient-path-reward|在线 Agentic RL]] 中的长周期探索做好准备。