--- title: "Reinforced Online-Policy Distillation (ROPD)" created: 2026-06-20 updated: 2026-06-20 type: concept tags: ["post-training", "distillation", "reinforcement", "policy", "consolidation"] sources: ["https://arxiv.org/abs/2606.17800"] --- # Reinforced Online-Policy Distillation (ROPD) **Reinforced Online-Policy Distillation (ROPD)** 是 [[maineCoon|MaineCoon]] 提出的专家合并策略:将多个域特定的 LoRA DPO 专家合并为**单一可部署的流式策略**,由域 verifier 自动加权专家干预程度。 ## 动机 [[domain-aware-preference-optimization|Domain-Aware DPO]] 为每个社交视频域(远镜、多人对话、运动等)训练了独立的 LoRA expert,但直接平均或路由多专家会增加部署复杂度。ROPD 在**训练时将专家合并**为统一策略,推理时无需路由。 ## 工作流 ### 1. 学生候选生成 对于域 `d` 的样本,行为学生(当前 student policy)生成 `G` 个候选 chunk: ``` x̂_t^i ~ p_θ_old(x_t | x_