Files
myWiki/concepts/multi-teacher-on-policy-distillation.md

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Multi-Teacher On-Policy Distillation (MODPO) 2026-06-10 2026-06-10 concept
reinforcement-learning
distillation
on-policy
raw/papers/onereason-team-onereason-2026.md

Multi-Teacher On-Policy Distillation (MODPO)

多教师在线策略蒸馏方法,在 OneReason 的 specialize-then-unify-rl 中用于跨域平衡。

核心思想

MODPO (Xiao et al., 2026) 在 RL 训练过程中同时从多个教师模型蒸馏知识:

  1. 多教师:各单域专项模型作为教师,提供域内推理能力
  2. 在线策略 (On-Policy):学生模型在训练过程中持续生成,教师实时提供指导信号
  3. 蒸馏:将教师的知识压缩到统一的学生模型中

在 OneReason 中的应用

在 Unify 阶段MODPO 替代或补充 rejection-sampling-fine-tuning

  • 从短视频域教师、直播域教师等多个专项模型中蒸馏
  • 在 RL 训练过程中实现在线跨域平衡
  • 避免离线 RSFT 中采样分布偏移的问题

与 RSFT 的对比

维度 RSFT MODPO
模式 离线 在线
数据 预采样+筛选 训练中实时生成
教师 可选多教师 显式多教师
分布偏移 可能有 on-policy

参考