44 lines
1.4 KiB
Markdown
44 lines
1.4 KiB
Markdown
---
|
||
title: "Multi-Teacher On-Policy Distillation (MODPO)"
|
||
created: 2026-06-10
|
||
updated: 2026-06-10
|
||
type: concept
|
||
tags: [reinforcement-learning, distillation, on-policy]
|
||
sources: [raw/papers/onereason-team-onereason-2026.md]
|
||
---
|
||
|
||
# Multi-Teacher On-Policy Distillation (MODPO)
|
||
|
||
> 多教师在线策略蒸馏方法,在 OneReason 的 [[specialize-then-unify-rl|specialize-then-unify RL]] 中用于跨域平衡。
|
||
|
||
## 核心思想
|
||
|
||
MODPO (Xiao et al., 2026) 在 RL 训练过程中同时从多个教师模型蒸馏知识:
|
||
|
||
1. **多教师**:各单域专项模型作为教师,提供域内推理能力
|
||
2. **在线策略 (On-Policy)**:学生模型在训练过程中持续生成,教师实时提供指导信号
|
||
3. **蒸馏**:将教师的知识压缩到统一的学生模型中
|
||
|
||
## 在 OneReason 中的应用
|
||
|
||
在 Unify 阶段,MODPO 替代或补充 [[rejection-sampling-fine-tuning|RSFT]]:
|
||
|
||
- 从短视频域教师、直播域教师等多个专项模型中蒸馏
|
||
- 在 RL 训练过程中实现在线跨域平衡
|
||
- 避免离线 RSFT 中采样分布偏移的问题
|
||
|
||
## 与 RSFT 的对比
|
||
|
||
| 维度 | RSFT | MODPO |
|
||
|------|------|-------|
|
||
| 模式 | 离线 | 在线 |
|
||
| 数据 | 预采样+筛选 | 训练中实时生成 |
|
||
| 教师 | 可选多教师 | 显式多教师 |
|
||
| 分布偏移 | 可能有 | 无(on-policy) |
|
||
|
||
## 参考
|
||
|
||
- [[specialize-then-unify-rl|Specialize-then-Unify RL]]
|
||
- [[rejection-sampling-fine-tuning|RSFT]]
|
||
- [[onereason|OneReason]]
|