646 B
646 B
title, created, updated, type, tags, status
| title | created | updated | type | tags | status | ||||
|---|---|---|---|---|---|---|---|---|---|
| DPO (Direct Preference Optimization) | 2026-06-03 | 2026-06-03 | concept |
|
placeholder |
DPO (Direct Preference Optimization)
⚠️ 占位符页面 — 待完善
DPO 是一种直接偏好优化方法,通过重新参数化 RLHF 中的奖励函数,直接从偏好数据中优化策略,无需显式训练奖励模型。是 RLHF 的简化替代方案。
在 zhang-reconciling-sft-interaction-2026 的讨论中,RLHF/DPO 等替代性后训练范式与 SFT 形成对照。