20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/unified-rft.md
+++ b/concepts/unified-rft.md
@@ -0,0 +1,35 @@
+---
+title: "统一拒绝采样微调 (Unified RFT)"
+domain: "Multimodal AI / Training"
+tags: [rft, rejection-fine-tuning, visual-primitives, training]
+sources: [[thinking-with-visual-primitives]]
+---
+
+# 统一拒绝采样微调 (Unified RFT)
+
+> Unified Rejection Fine-Tuning：利用专家模型的 on-policy rollout 生成高质量训练数据，将框和点两种视觉原语推理范式统一到单个模型。
+
+## 流程
+
+1. 使用专家模型 [[visual-primitives]] 和 [[visual-primitives]] 在数据池上进行 rollout
+2. 按 [[group-relative-policy-optimization|群体相对策略优化]] 的难度标准对样本分类
+3. 数据筛选策略：
+   - **Normal-Level**（部分正确）：**全部保留**
+   - **Easy-Level**（全部正确）：**随机采样 5%**（防止灾难性遗忘）
+   - **Hard-Level**（全部错误）：丢弃
+4. 从 base pretrained model 初始化，用 RFT 数据集进行 SFT
+
+## 与 Specialized SFT 的区别
+
+| 维度 | Specialized SFT | Unified RFT |
+|------|----------------|-------------|
+| 训练目标 | 两个独立专家 | 统一模型 |
+| 数据来源 | 人工标注 + 冷启动 | 专家模型 rollout |
+| 数据质量 | 人工验证 | 模型自生成 + 筛选 |
+| 规模 | 较小（冷启动） | 更大更广 |
+
+## 相关概念
+
+- [[specialized-sft|专项监督微调]] — 前置阶段
+- [[specialized-rl|专项强化学习]] — 产生专家模型
+- [[on-policy-distillation|在线策略蒸馏]] — 后续巩固阶段