SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

646 B

Raw Blame History

title, created, updated, type, tags, status

title

created

updated

type

tags

status

DPO (Direct Preference Optimization)

2026-06-03

2026-06-03

concept

DPO

alignment

LLM

training

placeholder

DPO (Direct Preference Optimization)

⚠️ 占位符页面 — 待完善

DPO 是一种直接偏好优化方法，通过重新参数化 RLHF 中的奖励函数，直接从偏好数据中优化策略，无需显式训练奖励模型。是 RLHF 的简化替代方案。

在 zhang-reconciling-sft-interaction-2026 的讨论中，RLHF/DPO 等替代性后训练范式与 SFT 形成对照。

相关概念