Files
myWiki/concepts/unified-rft.md

35 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "统一拒绝采样微调 (Unified RFT)"
domain: "Multimodal AI / Training"
tags: [rft, rejection-fine-tuning, visual-primitives, training]
sources: [[thinking-with-visual-primitives]]
---
# 统一拒绝采样微调 (Unified RFT)
> Unified Rejection Fine-Tuning利用专家模型的 on-policy rollout 生成高质量训练数据,将框和点两种视觉原语推理范式统一到单个模型。
## 流程
1. 使用专家模型 [[visual-primitives]] 和 [[visual-primitives]] 在数据池上进行 rollout
2. 按 [[group-relative-policy-optimization|群体相对策略优化]] 的难度标准对样本分类
3. 数据筛选策略:
- **Normal-Level**(部分正确):**全部保留**
- **Easy-Level**(全部正确):**随机采样 5%**(防止灾难性遗忘)
- **Hard-Level**(全部错误):丢弃
4. 从 base pretrained model 初始化,用 RFT 数据集进行 SFT
## 与 Specialized SFT 的区别
| 维度 | Specialized SFT | Unified RFT |
|------|----------------|-------------|
| 训练目标 | 两个独立专家 | 统一模型 |
| 数据来源 | 人工标注 + 冷启动 | 专家模型 rollout |
| 数据质量 | 人工验证 | 模型自生成 + 筛选 |
| 规模 | 较小(冷启动) | 更大更广 |
## 相关概念
- [[specialized-sft|专项监督微调]] — 前置阶段
- [[specialized-rl|专项强化学习]] — 产生专家模型
- [[on-policy-distillation|在线策略蒸馏]] — 后续巩固阶段