1.4 KiB
1.4 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Multi-Teacher On-Policy Distillation (MODPO) | 2026-06-10 | 2026-06-10 | concept |
|
|
Multi-Teacher On-Policy Distillation (MODPO)
多教师在线策略蒸馏方法,在 OneReason 的 specialize-then-unify-rl 中用于跨域平衡。
核心思想
MODPO (Xiao et al., 2026) 在 RL 训练过程中同时从多个教师模型蒸馏知识:
- 多教师:各单域专项模型作为教师,提供域内推理能力
- 在线策略 (On-Policy):学生模型在训练过程中持续生成,教师实时提供指导信号
- 蒸馏:将教师的知识压缩到统一的学生模型中
在 OneReason 中的应用
在 Unify 阶段,MODPO 替代或补充 rejection-sampling-fine-tuning:
- 从短视频域教师、直播域教师等多个专项模型中蒸馏
- 在 RL 训练过程中实现在线跨域平衡
- 避免离线 RSFT 中采样分布偏移的问题
与 RSFT 的对比
| 维度 | RSFT | MODPO |
|---|---|---|
| 模式 | 离线 | 在线 |
| 数据 | 预采样+筛选 | 训练中实时生成 |
| 教师 | 可选多教师 | 显式多教师 |
| 分布偏移 | 可能有 | 无(on-policy) |