Files
myWiki/concepts/tool-bootstrapped-rft.md
2026-06-01 10:46:01 +08:00

1.9 KiB
Raw Blame History

title, created, type, tags
title created type tags
Tool-Bootstrapped GUI RFT 2026-05-31 concept
reinforcement-learning
grpo
gui-tool
sft

Tool-Bootstrapped GUI RFT工具引导的 GUI 强化微调)

Tool-Bootstrapped GUI RFTReinforcement Fine-Tuningtoolcua-optimal-gui-tool-orchestration 训练范式的第二阶段,用于在 interleaved-gui-tool-trajectory-scaling 上建立混合动作基础并校准关键决策点。

两个子阶段

1. Warmup SFT预热监督微调

\mathcal{D}_{\text{all}} 上使用标准交叉熵损失训练:

\mathcal{L}_{\text{SFT}} = -\sum \log \pi_\theta(a_t | s_t)

目标:教会模型 CUA 领域中的多模态工具调用知识:

  • 工具使用方法
  • 工具参数推理
  • 工具执行后的状态理解
  • 获得 \mathcal{M}_{\text{sft}}

2. Single-Turn RL on Critical Steps

在 $\mathcal{D}_{\text{critical}}$(关键切换点)上使用 grpo 进行单轮 RL。

关键设计

  • 仅在显式的 GUI↔Tool 切换边界进行优化
  • 模型采样多个 completion接收直接反馈继续 GUI 还是切换到工具?
  • 目标校准:优化模型在决策边界的判断力

为什么是 Single-Turn

  • 这些关键切换点是独立决策——不需要完整轨迹回放
  • 聚焦于"这一刻该切换吗"这一个核心问题
  • 相比 full trajectory RL更高效且避免稀疏奖励问题

两阶段的关系

阶段 数据 目标 产出
Warmup SFT \mathcal{D}_{\text{all}} 基础混合动作能力 \mathcal{M}_{\text{sft}}
Single-Turn RL \mathcal{D}_{\text{critical}} 切换点决策校准 \mathcal{M}_{\text{rft}}

\mathcal{M}_{\text{rft}}协调的 agent,为下一阶段 tool-efficient-path-reward 中的长周期探索做好准备。