20260601
This commit is contained in:
47
concepts/tool-bootstrapped-rft.md
Normal file
47
concepts/tool-bootstrapped-rft.md
Normal file
@@ -0,0 +1,47 @@
|
||||
---
|
||||
title: "Tool-Bootstrapped GUI RFT"
|
||||
created: 2026-05-31
|
||||
type: concept
|
||||
tags: [reinforcement-learning, grpo, gui-tool, sft]
|
||||
---
|
||||
|
||||
# Tool-Bootstrapped GUI RFT(工具引导的 GUI 强化微调)
|
||||
|
||||
**Tool-Bootstrapped GUI RFT(Reinforcement Fine-Tuning)** 是 [[toolcua-optimal-gui-tool-orchestration|ToolCUA]] 训练范式的第二阶段,用于在 [[interleaved-gui-tool-trajectory-scaling|合成交错数据]] 上建立混合动作基础并校准关键决策点。
|
||||
|
||||
## 两个子阶段
|
||||
|
||||
### 1. Warmup SFT(预热监督微调)
|
||||
|
||||
在 $\mathcal{D}_{\text{all}}$ 上使用标准交叉熵损失训练:
|
||||
|
||||
$$\mathcal{L}_{\text{SFT}} = -\sum \log \pi_\theta(a_t | s_t)$$
|
||||
|
||||
**目标**:教会模型 CUA 领域中的多模态工具调用知识:
|
||||
- 工具使用方法
|
||||
- 工具参数推理
|
||||
- 工具执行后的状态理解
|
||||
- 获得 $\mathcal{M}_{\text{sft}}$
|
||||
|
||||
### 2. Single-Turn RL on Critical Steps
|
||||
|
||||
在 $\mathcal{D}_{\text{critical}}$(关键切换点)上使用 [[grpo|GRPO]] 进行单轮 RL。
|
||||
|
||||
**关键设计**:
|
||||
- 仅在显式的 GUI↔Tool 切换边界进行优化
|
||||
- 模型采样多个 completion,接收直接反馈:继续 GUI 还是切换到工具?
|
||||
- **目标校准**:优化模型在决策边界的判断力
|
||||
|
||||
**为什么是 Single-Turn?**
|
||||
- 这些关键切换点是**独立决策**——不需要完整轨迹回放
|
||||
- 聚焦于"这一刻该切换吗"这一个核心问题
|
||||
- 相比 full trajectory RL,更高效且避免稀疏奖励问题
|
||||
|
||||
## 两阶段的关系
|
||||
|
||||
| 阶段 | 数据 | 目标 | 产出 |
|
||||
|------|------|------|------|
|
||||
| Warmup SFT | $\mathcal{D}_{\text{all}}$ | 基础混合动作能力 | $\mathcal{M}_{\text{sft}}$ |
|
||||
| Single-Turn RL | $\mathcal{D}_{\text{critical}}$ | 切换点决策校准 | $\mathcal{M}_{\text{rft}}$ |
|
||||
|
||||
$\mathcal{M}_{\text{rft}}$ 是**协调的 agent**,为下一阶段 [[tool-efficient-path-reward|在线 Agentic RL]] 中的长周期探索做好准备。
|
||||
Reference in New Issue
Block a user