20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/multi-teacher-on-policy-distillation.md
+++ b/concepts/multi-teacher-on-policy-distillation.md
@@ -0,0 +1,43 @@
+---
+title: "Multi-Teacher On-Policy Distillation (MODPO)"
+created: 2026-06-10
+updated: 2026-06-10
+type: concept
+tags: [reinforcement-learning, distillation, on-policy]
+sources: [raw/papers/onereason-team-onereason-2026.md]
+---
+
+# Multi-Teacher On-Policy Distillation (MODPO)
+
+> 多教师在线策略蒸馏方法，在 OneReason 的 [[specialize-then-unify-rl|specialize-then-unify RL]] 中用于跨域平衡。
+
+## 核心思想
+
+MODPO (Xiao et al., 2026) 在 RL 训练过程中同时从多个教师模型蒸馏知识：
+
+1. **多教师**：各单域专项模型作为教师，提供域内推理能力
+2. **在线策略 (On-Policy)**：学生模型在训练过程中持续生成，教师实时提供指导信号
+3. **蒸馏**：将教师的知识压缩到统一的学生模型中
+
+## 在 OneReason 中的应用
+
+在 Unify 阶段，MODPO 替代或补充 [[rejection-sampling-fine-tuning|RSFT]]：
+
+- 从短视频域教师、直播域教师等多个专项模型中蒸馏
+- 在 RL 训练过程中实现在线跨域平衡
+- 避免离线 RSFT 中采样分布偏移的问题
+
+## 与 RSFT 的对比
+
+| 维度 | RSFT | MODPO |
+|------|------|-------|
+| 模式 | 离线 | 在线 |
+| 数据 | 预采样+筛选 | 训练中实时生成 |
+| 教师 | 可选多教师 | 显式多教师 |
+| 分布偏移 | 可能有 | 无（on-policy） |
+
+## 参考
+
+- [[specialize-then-unify-rl|Specialize-then-Unify RL]]
+- [[rejection-sampling-fine-tuning|RSFT]]
+- [[onereason|OneReason]]