1.9 KiB
1.9 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Domain-Aware Preference Optimization | 2026-06-20 | 2026-06-20 | concept |
|
|
Domain-Aware Preference Optimization (域感知偏好优化)
Domain-Aware Preference Optimization 是 maineCoon 后训练的第一阶段:为不同社交视频域训练专门的 LoRA dpo expert。
为什么需要域感知
社交视频的质量标准因内容域而异:
| 域 | 质量重点 |
|---|---|
| Far Shot | 全身结构稳定性、场景一致性 |
| Multi-Person Dialogue | 说话人身份一致、轮流发言 |
| Motion | 大幅度、时序连贯的身体运动 |
| Animation | 风格一致的非写实渲染 |
| Dance | 复杂肢体动作 + 音乐节奏同步 |
直接在所有目标上优化单一模型会引入冲突偏好信号。
方法
Domain Preference Pairs
对每个域 d:
- 用域质量过滤器选择高质量真实视频作为
x⁺ - 用当前 generator 生成同 prompt 的
x⁻ - 周期性用最新域模型刷新
x⁻,使偏好数据反映当前 failure modes
Domain-Specialized DPO Experts
从 native streaming checkpoint θ₀ 出发,为每个域训练 LoRA adapter:
φ_d = θ₀ + Δ_d
使用 doubled-sequence interface(与 native training 相同),preferred 和 dispreferred 共享 prompt 和 noise,仅历史不同。
DPO loss:
L_DPO = -E[log σ(β_d · (ℓ⁻_φ - ℓ⁺_φ - ℓ⁻_θ₀ + ℓ⁺_θ₀))]
保留少量 reconstruction loss 在 preferred 样本上。
与 ROPD 的关系
域专家训练完成后,通过 reinforced-online-policy-distillation 合并为单一部署策略。推理时无需任何 domain adapter。
参考
- maineCoon Section 3.3
- reinforced-online-policy-distillation
- dpo