Domain-Aware Preference Optimization (域感知偏好优化)

Domain-Aware Preference Optimization 是 maineCoon 后训练的第一阶段：为不同社交视频域训练专门的 LoRA dpo expert。

为什么需要域感知

社交视频的质量标准因内容域而异：

直接在所有目标上优化单一模型会引入冲突偏好信号。

对每个域 d：

从 native streaming checkpoint θ₀ 出发，为每个域训练 LoRA adapter：

φ_d = θ₀ + Δ_d

使用 doubled-sequence interface（与 native training 相同），preferred 和 dispreferred 共享 prompt 和 noise，仅历史不同。

DPO loss：

L_DPO = -E[log σ(β_d · (ℓ⁻_φ - ℓ⁺_φ - ℓ⁻_θ₀ + ℓ⁺_θ₀))]

保留少量 reconstruction loss 在 preferred 样本上。

域专家训练完成后，通过 reinforced-online-policy-distillation 合并为单一部署策略。推理时无需任何 domain adapter。