SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.4 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Rejection Sampling Fine-tuning (RSFT)

2026-06-10

2026-06-10

concept

reinforcement-learning

fine-tuning

rejection-sampling

raw/papers/onereason-team-onereason-2026.md

Rejection Sampling Fine-tuning (RSFT)

通过采样并筛选高质量模型输出进行监督微调的技术，在 OneReason 中用于 specialize-then-unify-rl 的统一阶段。

核心思想

Rejection Sampling FT (Yuan et al., 2023) 的工作流程：

采样：从当前策略（或一组教师模型）采样大量推理轨迹
筛选：基于 reward 模型或 verifier 拒绝低质量轨迹
微调：仅用通过筛选的高质量轨迹进行 SFT

在 OneReason 中的应用

在 specialize-then-unify-rl 的 Unify 阶段，RSFT 用于：

从各单域专项模型中采样 thinking 轨迹
筛选跨域一致的推理模式
微调得到统一的跨域推理能力

与其他方法的关系

vs multi-teacher-on-policy-distillation：RSFT 是离线方法（采样后微调），MODPO 是在线方法（训练中蒸馏）
vs 普通 SFT：RSFT 的关键在于采样+筛选的闭环，确保训练数据质量

参考