Files
myWiki/concepts/domain-aware-preference-optimization.md

1.9 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Domain-Aware Preference Optimization 2026-06-20 2026-06-20 concept
dpo
preference-optimization
domain
lora
post-training
https://arxiv.org/abs/2606.17800

Domain-Aware Preference Optimization (域感知偏好优化)

Domain-Aware Preference OptimizationmaineCoon 后训练的第一阶段:为不同社交视频域训练专门的 LoRA dpo expert。

为什么需要域感知

社交视频的质量标准因内容域而异:

质量重点
Far Shot 全身结构稳定性、场景一致性
Multi-Person Dialogue 说话人身份一致、轮流发言
Motion 大幅度、时序连贯的身体运动
Animation 风格一致的非写实渲染
Dance 复杂肢体动作 + 音乐节奏同步

直接在所有目标上优化单一模型会引入冲突偏好信号

方法

Domain Preference Pairs

对每个域 d

  1. 用域质量过滤器选择高质量真实视频作为 x⁺
  2. 用当前 generator 生成同 prompt 的 x⁻
  3. 周期性用最新域模型刷新 x⁻,使偏好数据反映当前 failure modes

Domain-Specialized DPO Experts

从 native streaming checkpoint θ₀ 出发,为每个域训练 LoRA adapter

φ_d = θ₀ + Δ_d

使用 doubled-sequence interface与 native training 相同preferred 和 dispreferred 共享 prompt 和 noise仅历史不同。

DPO loss

L_DPO = -E[log σ(β_d · (⁻_φ - ⁺_φ - ⁻_θ₀ + ⁺_θ₀))]

保留少量 reconstruction loss 在 preferred 样本上。

与 ROPD 的关系

域专家训练完成后,通过 reinforced-online-policy-distillation 合并为单一部署策略。推理时无需任何 domain adapter

参考