Files
myWiki/concepts/unified-rft.md

1.4 KiB
Raw Permalink Blame History

title, domain, tags, sources
title domain tags sources
统一拒绝采样微调 (Unified RFT) Multimodal AI / Training
rft
rejection-fine-tuning
visual-primitives
training
thinking-with-visual-primitives

统一拒绝采样微调 (Unified RFT)

Unified Rejection Fine-Tuning利用专家模型的 on-policy rollout 生成高质量训练数据,将框和点两种视觉原语推理范式统一到单个模型。

流程

  1. 使用专家模型 visual-primitivesvisual-primitives 在数据池上进行 rollout
  2. group-relative-policy-optimization 的难度标准对样本分类
  3. 数据筛选策略:
    • Normal-Level(部分正确):全部保留
    • Easy-Level(全部正确):随机采样 5%(防止灾难性遗忘)
    • Hard-Level(全部错误):丢弃
  4. 从 base pretrained model 初始化,用 RFT 数据集进行 SFT

与 Specialized SFT 的区别

维度 Specialized SFT Unified RFT
训练目标 两个独立专家 统一模型
数据来源 人工标注 + 冷启动 专家模型 rollout
数据质量 人工验证 模型自生成 + 筛选
规模 较小(冷启动) 更大更广

相关概念