Files
myWiki/concepts/domain-aware-preference-optimization.md

57 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Domain-Aware Preference Optimization"
created: 2026-06-20
updated: 2026-06-20
type: concept
tags: ["dpo", "preference-optimization", "domain", "lora", "post-training"]
sources: ["https://arxiv.org/abs/2606.17800"]
---
# Domain-Aware Preference Optimization (域感知偏好优化)
**Domain-Aware Preference Optimization** 是 [[maineCoon|MaineCoon]] 后训练的第一阶段:为不同社交视频域训练专门的 LoRA [[dpo|DPO]] expert。
## 为什么需要域感知
社交视频的质量标准因内容域而异:
| 域 | 质量重点 |
|----|---------|
| **Far Shot** | 全身结构稳定性、场景一致性 |
| **Multi-Person Dialogue** | 说话人身份一致、轮流发言 |
| **Motion** | 大幅度、时序连贯的身体运动 |
| **Animation** | 风格一致的非写实渲染 |
| **Dance** | 复杂肢体动作 + 音乐节奏同步 |
直接在所有目标上优化单一模型会引入**冲突偏好信号**。
## 方法
### Domain Preference Pairs
对每个域 `d`
1. 用域质量过滤器选择高质量真实视频作为 `x⁺`
2. 用当前 generator 生成同 prompt 的 `x⁻`
3. 周期性用最新域模型刷新 `x⁻`,使偏好数据反映当前 failure modes
### Domain-Specialized DPO Experts
从 native streaming checkpoint `θ₀` 出发,为每个域训练 LoRA adapter
```
φ_d = θ₀ + Δ_d
```
使用 doubled-sequence interface与 native training 相同preferred 和 dispreferred 共享 prompt 和 noise仅历史不同。
DPO loss
```
L_DPO = -E[log σ(β_d · (⁻_φ - ⁺_φ - ⁻_θ₀ + ⁺_θ₀))]
```
保留少量 reconstruction loss 在 preferred 样本上。
## 与 ROPD 的关系
域专家训练完成后,通过 [[reinforced-online-policy-distillation|ROPD]] 合并为单一部署策略。推理时**无需任何 domain adapter**。
## 参考
- [[maineCoon|MaineCoon 论文]] Section 3.3
- [[reinforced-online-policy-distillation|ROPD]]
- [[dpo|Direct Preference Optimization]]