20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/rejection-sampling-fine-tuning.md
+++ b/concepts/rejection-sampling-fine-tuning.md
@@ -0,0 +1,39 @@
+---
+title: "Rejection Sampling Fine-tuning (RSFT)"
+created: 2026-06-10
+updated: 2026-06-10
+type: concept
+tags: [reinforcement-learning, fine-tuning, rejection-sampling]
+sources: [raw/papers/onereason-team-onereason-2026.md]
+---
+
+# Rejection Sampling Fine-tuning (RSFT)
+
+> 通过采样并筛选高质量模型输出进行监督微调的技术，在 OneReason 中用于 [[specialize-then-unify-rl|specialize-then-unify RL]] 的统一阶段。
+
+## 核心思想
+
+Rejection Sampling FT (Yuan et al., 2023) 的工作流程：
+
+1. **采样**：从当前策略（或一组教师模型）采样大量推理轨迹
+2. **筛选**：基于 reward 模型或 verifier 拒绝低质量轨迹
+3. **微调**：仅用通过筛选的高质量轨迹进行 SFT
+
+## 在 OneReason 中的应用
+
+在 [[specialize-then-unify-rl|specialize-then-unify]] 的 Unify 阶段，RSFT 用于：
+
+- 从各单域专项模型中采样 thinking 轨迹
+- 筛选跨域一致的推理模式
+- 微调得到统一的跨域推理能力
+
+## 与其他方法的关系
+
+- vs [[multi-teacher-on-policy-distillation|MODPO]]：RSFT 是离线方法（采样后微调），MODPO 是在线方法（训练中蒸馏）
+- vs 普通 SFT：RSFT 的关键在于采样+筛选的闭环，确保训练数据质量
+
+## 参考
+
+- [[specialize-then-unify-rl|Specialize-then-Unify RL]]
+- [[multi-teacher-on-policy-distillation|MODPO]]
+- [[onereason|OneReason]]