Files
myWiki/concepts/multi-teacher-on-policy-distillation.md

44 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Multi-Teacher On-Policy Distillation (MODPO)"
created: 2026-06-10
updated: 2026-06-10
type: concept
tags: [reinforcement-learning, distillation, on-policy]
sources: [raw/papers/onereason-team-onereason-2026.md]
---
# Multi-Teacher On-Policy Distillation (MODPO)
> 多教师在线策略蒸馏方法,在 OneReason 的 [[specialize-then-unify-rl|specialize-then-unify RL]] 中用于跨域平衡。
## 核心思想
MODPO (Xiao et al., 2026) 在 RL 训练过程中同时从多个教师模型蒸馏知识:
1. **多教师**:各单域专项模型作为教师,提供域内推理能力
2. **在线策略 (On-Policy)**:学生模型在训练过程中持续生成,教师实时提供指导信号
3. **蒸馏**:将教师的知识压缩到统一的学生模型中
## 在 OneReason 中的应用
在 Unify 阶段MODPO 替代或补充 [[rejection-sampling-fine-tuning|RSFT]]
- 从短视频域教师、直播域教师等多个专项模型中蒸馏
- 在 RL 训练过程中实现在线跨域平衡
- 避免离线 RSFT 中采样分布偏移的问题
## 与 RSFT 的对比
| 维度 | RSFT | MODPO |
|------|------|-------|
| 模式 | 离线 | 在线 |
| 数据 | 预采样+筛选 | 训练中实时生成 |
| 教师 | 可选多教师 | 显式多教师 |
| 分布偏移 | 可能有 | 无on-policy |
## 参考
- [[specialize-then-unify-rl|Specialize-then-Unify RL]]
- [[rejection-sampling-fine-tuning|RSFT]]
- [[onereason|OneReason]]