--- title: "Domain-Aware Preference Optimization" created: 2026-06-20 updated: 2026-06-20 type: concept tags: ["dpo", "preference-optimization", "domain", "lora", "post-training"] sources: ["https://arxiv.org/abs/2606.17800"] --- # Domain-Aware Preference Optimization (域感知偏好优化) **Domain-Aware Preference Optimization** 是 [[maineCoon|MaineCoon]] 后训练的第一阶段:为不同社交视频域训练专门的 LoRA [[dpo|DPO]] expert。 ## 为什么需要域感知 社交视频的质量标准因内容域而异: | 域 | 质量重点 | |----|---------| | **Far Shot** | 全身结构稳定性、场景一致性 | | **Multi-Person Dialogue** | 说话人身份一致、轮流发言 | | **Motion** | 大幅度、时序连贯的身体运动 | | **Animation** | 风格一致的非写实渲染 | | **Dance** | 复杂肢体动作 + 音乐节奏同步 | 直接在所有目标上优化单一模型会引入**冲突偏好信号**。 ## 方法 ### Domain Preference Pairs 对每个域 `d`: 1. 用域质量过滤器选择高质量真实视频作为 `x⁺` 2. 用当前 generator 生成同 prompt 的 `x⁻` 3. 周期性用最新域模型刷新 `x⁻`,使偏好数据反映当前 failure modes ### Domain-Specialized DPO Experts 从 native streaming checkpoint `θ₀` 出发,为每个域训练 LoRA adapter: ``` φ_d = θ₀ + Δ_d ``` 使用 doubled-sequence interface(与 native training 相同),preferred 和 dispreferred 共享 prompt 和 noise,仅历史不同。 DPO loss: ``` L_DPO = -E[log σ(β_d · (ℓ⁻_φ - ℓ⁺_φ - ℓ⁻_θ₀ + ℓ⁺_θ₀))] ``` 保留少量 reconstruction loss 在 preferred 样本上。 ## 与 ROPD 的关系 域专家训练完成后,通过 [[reinforced-online-policy-distillation|ROPD]] 合并为单一部署策略。推理时**无需任何 domain adapter**。 ## 参考 - [[maineCoon|MaineCoon 论文]] Section 3.3 - [[reinforced-online-policy-distillation|ROPD]] - [[dpo|Direct Preference Optimization]]