Files
myWiki/concepts/dpo-bias-mitigation.md

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
DPO Bias Mitigation 2026-06-24 2026-06-24 concept
dpo
bias-mitigation
alignment
preference-optimization
personalization-trap-2025

DPO Bias Mitigation

DPO Bias Mitigation 是 Fang et al. (2025) 提出的通过 dpo 减少用户画像对 LLM 情感推理影响的策略。

偏好数据集构建

  1. 数据源Tulu3 中抽样 5000 个问题,随机配对用户画像
  2. 候选生成:每个问题生成 5 个响应3 个被指示检查并声明画像无关 + 2 个对照组)
  3. LLM Judge 评分:三个维度
    • 正确性:是否覆盖 ground-truth 的所有要点
    • 偏见检测:画像细节是否影响最终判断
    • 画像无关声明:是否声明画像信息无关
  4. 偏好对chosen = 正确 + 无偏见 + 声明无关rejected = 不正确 + 偏见平衡
  5. Reward Model 过滤:保留 chosen positive / rejected negative 且有足够 margin 的对(~20% 保留率)

结果

模型 STEU Before STEU After MMLU Bias ∆
Gemma-2-2B 59.50% 63.70% +6.7pp 5.50%→-2.30%
Qwen-3-1.7B 60.90% 60.30% +6.8pp 1.70%→0.40%

仅 500 样本。Bias Influence 反转Gemma 不再偏好优势画像MMLU 同时提升。

参考