Reinforced Online-Policy Distillation (ROPD)

Reinforced Online-Policy Distillation (ROPD) 是 maineCoon 提出的专家合并策略：将多个域特定的 LoRA DPO 专家合并为单一可部署的流式策略，由域 verifier 自动加权专家干预程度。

动机

domain-aware-preference-optimization 为每个社交视频域（远镜、多人对话、运动等）训练了独立的 LoRA expert，但直接平均或路由多专家会增加部署复杂度。ROPD 在训练时将专家合并为统一策略，推理时无需路由。

对于域 d 的样本，行为学生（当前 student policy）生成 G 个候选 chunk：

x̂_t^i ~ p_θ_old(x_t | x_<t, c),  i=1,...,G

每个候选经历完整的 denoising trajectory。

域特定的 verifier 对每个候选打分 R_i ∈ {0, 1}，计算组成功率：

R̄ = (1/G) Σ R_i

ROPD 的关键创新在于自动调节专家干预程度：

η_i = α(1 - R̄) / (R_i + 1 - R̄)

在 velocity space 中构造 proximal target：

ṽ = (1-η_i) · sg[f_θ_old] + η_i · sg[f_φ_d]

学生直接拟合该混合 velocity，无需 PPO 式策略梯度。