This commit is contained in:
2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions

View File

@@ -0,0 +1,47 @@
---
title: "Tool-Bootstrapped GUI RFT"
created: 2026-05-31
type: concept
tags: [reinforcement-learning, grpo, gui-tool, sft]
---
# Tool-Bootstrapped GUI RFT工具引导的 GUI 强化微调)
**Tool-Bootstrapped GUI RFTReinforcement Fine-Tuning** 是 [[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 训练范式的第二阶段,用于在 [[interleaved-gui-tool-trajectory-scaling|合成交错数据]] 上建立混合动作基础并校准关键决策点。
## 两个子阶段
### 1. Warmup SFT预热监督微调
在 $\mathcal{D}_{\text{all}}$ 上使用标准交叉熵损失训练:
$$\mathcal{L}_{\text{SFT}} = -\sum \log \pi_\theta(a_t | s_t)$$
**目标**:教会模型 CUA 领域中的多模态工具调用知识:
- 工具使用方法
- 工具参数推理
- 工具执行后的状态理解
- 获得 $\mathcal{M}_{\text{sft}}$
### 2. Single-Turn RL on Critical Steps
在 $\mathcal{D}_{\text{critical}}$(关键切换点)上使用 [[grpo|GRPO]] 进行单轮 RL。
**关键设计**
- 仅在显式的 GUI↔Tool 切换边界进行优化
- 模型采样多个 completion接收直接反馈继续 GUI 还是切换到工具?
- **目标校准**:优化模型在决策边界的判断力
**为什么是 Single-Turn**
- 这些关键切换点是**独立决策**——不需要完整轨迹回放
- 聚焦于"这一刻该切换吗"这一个核心问题
- 相比 full trajectory RL更高效且避免稀疏奖励问题
## 两阶段的关系
| 阶段 | 数据 | 目标 | 产出 |
|------|------|------|------|
| Warmup SFT | $\mathcal{D}_{\text{all}}$ | 基础混合动作能力 | $\mathcal{M}_{\text{sft}}$ |
| Single-Turn RL | $\mathcal{D}_{\text{critical}}$ | 切换点决策校准 | $\mathcal{M}_{\text{rft}}$ |
$\mathcal{M}_{\text{rft}}$ 是**协调的 agent**,为下一阶段 [[tool-efficient-path-reward|在线 Agentic RL]] 中的长周期探索做好准备。