20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/domain-aware-preference-optimization.md
+++ b/concepts/domain-aware-preference-optimization.md
@@ -0,0 +1,56 @@
+---
+title: "Domain-Aware Preference Optimization"
+created: 2026-06-20
+updated: 2026-06-20
+type: concept
+tags: ["dpo", "preference-optimization", "domain", "lora", "post-training"]
+sources: ["https://arxiv.org/abs/2606.17800"]
+---
+
+# Domain-Aware Preference Optimization (域感知偏好优化)
+
+**Domain-Aware Preference Optimization** 是 [[maineCoon|MaineCoon]] 后训练的第一阶段：为不同社交视频域训练专门的 LoRA [[dpo|DPO]] expert。
+
+## 为什么需要域感知
+
+社交视频的质量标准因内容域而异：
+
+| 域 | 质量重点 |
+|----|---------|
+| **Far Shot** | 全身结构稳定性、场景一致性 |
+| **Multi-Person Dialogue** | 说话人身份一致、轮流发言 |
+| **Motion** | 大幅度、时序连贯的身体运动 |
+| **Animation** | 风格一致的非写实渲染 |
+| **Dance** | 复杂肢体动作 + 音乐节奏同步 |
+
+直接在所有目标上优化单一模型会引入**冲突偏好信号**。
+
+## 方法
+
+### Domain Preference Pairs
+对每个域 `d`：
+1. 用域质量过滤器选择高质量真实视频作为 `x⁺`
+2. 用当前 generator 生成同 prompt 的 `x⁻`
+3. 周期性用最新域模型刷新 `x⁻`，使偏好数据反映当前 failure modes
+
+### Domain-Specialized DPO Experts
+从 native streaming checkpoint `θ₀` 出发，为每个域训练 LoRA adapter：
+```
+φ_d = θ₀ + Δ_d
+```
+使用 doubled-sequence interface（与 native training 相同），preferred 和 dispreferred 共享 prompt 和 noise，仅历史不同。
+
+DPO loss：
+```
+L_DPO = -E[log σ(β_d · (ℓ⁻_φ - ℓ⁺_φ - ℓ⁻_θ₀ + ℓ⁺_θ₀))]
+```
+保留少量 reconstruction loss 在 preferred 样本上。
+
+## 与 ROPD 的关系
+
+域专家训练完成后，通过 [[reinforced-online-policy-distillation|ROPD]] 合并为单一部署策略。推理时**无需任何 domain adapter**。
+
+## 参考
+- [[maineCoon|MaineCoon 论文]] Section 3.3
+- [[reinforced-online-policy-distillation|ROPD]]
+- [[dpo|Direct Preference Optimization]]