1.4 KiB
1.4 KiB
title, domain, tags, sources
| title | domain | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|
| 统一拒绝采样微调 (Unified RFT) | Multimodal AI / Training |
|
|
统一拒绝采样微调 (Unified RFT)
Unified Rejection Fine-Tuning:利用专家模型的 on-policy rollout 生成高质量训练数据,将框和点两种视觉原语推理范式统一到单个模型。
流程
- 使用专家模型 visual-primitives 和 visual-primitives 在数据池上进行 rollout
- 按 group-relative-policy-optimization 的难度标准对样本分类
- 数据筛选策略:
- Normal-Level(部分正确):全部保留
- Easy-Level(全部正确):随机采样 5%(防止灾难性遗忘)
- Hard-Level(全部错误):丢弃
- 从 base pretrained model 初始化,用 RFT 数据集进行 SFT
与 Specialized SFT 的区别
| 维度 | Specialized SFT | Unified RFT |
|---|---|---|
| 训练目标 | 两个独立专家 | 统一模型 |
| 数据来源 | 人工标注 + 冷启动 | 专家模型 rollout |
| 数据质量 | 人工验证 | 模型自生成 + 筛选 |
| 规模 | 较小(冷启动) | 更大更广 |
相关概念
- specialized-sft — 前置阶段
- specialized-rl — 产生专家模型
- on-policy-distillation — 后续巩固阶段