20260514:增加新内容
This commit is contained in:
35
concepts/unified-rft.md
Normal file
35
concepts/unified-rft.md
Normal file
@@ -0,0 +1,35 @@
|
||||
---
|
||||
title: "统一拒绝采样微调 (Unified RFT)"
|
||||
domain: "Multimodal AI / Training"
|
||||
tags: [rft, rejection-fine-tuning, visual-primitives, training]
|
||||
sources: [[thinking-with-visual-primitives]]
|
||||
---
|
||||
|
||||
# 统一拒绝采样微调 (Unified RFT)
|
||||
|
||||
> Unified Rejection Fine-Tuning:利用专家模型的 on-policy rollout 生成高质量训练数据,将框和点两种视觉原语推理范式统一到单个模型。
|
||||
|
||||
## 流程
|
||||
|
||||
1. 使用专家模型 [[visual-primitives]] 和 [[visual-primitives]] 在数据池上进行 rollout
|
||||
2. 按 [[group-relative-policy-optimization|群体相对策略优化]] 的难度标准对样本分类
|
||||
3. 数据筛选策略:
|
||||
- **Normal-Level**(部分正确):**全部保留**
|
||||
- **Easy-Level**(全部正确):**随机采样 5%**(防止灾难性遗忘)
|
||||
- **Hard-Level**(全部错误):丢弃
|
||||
4. 从 base pretrained model 初始化,用 RFT 数据集进行 SFT
|
||||
|
||||
## 与 Specialized SFT 的区别
|
||||
|
||||
| 维度 | Specialized SFT | Unified RFT |
|
||||
|------|----------------|-------------|
|
||||
| 训练目标 | 两个独立专家 | 统一模型 |
|
||||
| 数据来源 | 人工标注 + 冷启动 | 专家模型 rollout |
|
||||
| 数据质量 | 人工验证 | 模型自生成 + 筛选 |
|
||||
| 规模 | 较小(冷启动) | 更大更广 |
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[specialized-sft|专项监督微调]] — 前置阶段
|
||||
- [[specialized-rl|专项强化学习]] — 产生专家模型
|
||||
- [[on-policy-distillation|在线策略蒸馏]] — 后续巩固阶段
|
||||
Reference in New Issue
Block a user