Files
myWiki/concepts/tool-bootstrapped-rft.md
2026-06-01 10:46:01 +08:00

48 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Tool-Bootstrapped GUI RFT"
created: 2026-05-31
type: concept
tags: [reinforcement-learning, grpo, gui-tool, sft]
---
# Tool-Bootstrapped GUI RFT工具引导的 GUI 强化微调)
**Tool-Bootstrapped GUI RFTReinforcement Fine-Tuning** 是 [[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 训练范式的第二阶段,用于在 [[interleaved-gui-tool-trajectory-scaling|合成交错数据]] 上建立混合动作基础并校准关键决策点。
## 两个子阶段
### 1. Warmup SFT预热监督微调
在 $\mathcal{D}_{\text{all}}$ 上使用标准交叉熵损失训练:
$$\mathcal{L}_{\text{SFT}} = -\sum \log \pi_\theta(a_t | s_t)$$
**目标**:教会模型 CUA 领域中的多模态工具调用知识:
- 工具使用方法
- 工具参数推理
- 工具执行后的状态理解
- 获得 $\mathcal{M}_{\text{sft}}$
### 2. Single-Turn RL on Critical Steps
在 $\mathcal{D}_{\text{critical}}$(关键切换点)上使用 [[grpo|GRPO]] 进行单轮 RL。
**关键设计**
- 仅在显式的 GUI↔Tool 切换边界进行优化
- 模型采样多个 completion接收直接反馈继续 GUI 还是切换到工具?
- **目标校准**:优化模型在决策边界的判断力
**为什么是 Single-Turn**
- 这些关键切换点是**独立决策**——不需要完整轨迹回放
- 聚焦于"这一刻该切换吗"这一个核心问题
- 相比 full trajectory RL更高效且避免稀疏奖励问题
## 两阶段的关系
| 阶段 | 数据 | 目标 | 产出 |
|------|------|------|------|
| Warmup SFT | $\mathcal{D}_{\text{all}}$ | 基础混合动作能力 | $\mathcal{M}_{\text{sft}}$ |
| Single-Turn RL | $\mathcal{D}_{\text{critical}}$ | 切换点决策校准 | $\mathcal{M}_{\text{rft}}$ |
$\mathcal{M}_{\text{rft}}$ 是**协调的 agent**,为下一阶段 [[tool-efficient-path-reward|在线 Agentic RL]] 中的长周期探索做好准备。