SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.4 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Multi-Teacher On-Policy Distillation (MODPO)

2026-06-10

2026-06-10

concept

reinforcement-learning

distillation

on-policy

raw/papers/onereason-team-onereason-2026.md

Multi-Teacher On-Policy Distillation (MODPO)

多教师在线策略蒸馏方法，在 OneReason 的 specialize-then-unify-rl 中用于跨域平衡。

核心思想

MODPO (Xiao et al., 2026) 在 RL 训练过程中同时从多个教师模型蒸馏知识：

多教师：各单域专项模型作为教师，提供域内推理能力
在线策略 (On-Policy)：学生模型在训练过程中持续生成，教师实时提供指导信号
蒸馏：将教师的知识压缩到统一的学生模型中

在 OneReason 中的应用

在 Unify 阶段，MODPO 替代或补充 rejection-sampling-fine-tuning：

从短视频域教师、直播域教师等多个专项模型中蒸馏
在 RL 训练过程中实现在线跨域平衡
避免离线 RSFT 中采样分布偏移的问题

与 RSFT 的对比

维度	RSFT	MODPO
模式	离线	在线
数据	预采样+筛选	训练中实时生成
教师	可选多教师	显式多教师
分布偏移	可能有	无（on-policy）

参考