Files
myWiki/concepts/persona-invariant-reasoning.md

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Persona-Invariant Reasoning 2026-06-24 2026-06-24 concept
fairness
reasoning
bias-mitigation
llm-safety
personalization-trap-2025

Persona-Invariant Reasoning

Persona-Invariant Reasoning 是在用户无关的任务上保持推理一致的理想状态——模型的推理质量不应随用户画像(社会经济地位、人口特征)而变化。

问题

当前 LLM 在融入用户记忆后,即使是在标准化、用户无关的测试(如 STEU也会因画像差异产生系统性偏差。画像信息不恰当地渗入了通用推理过程。

实现路径

DPO 训练

Fang et al. 展示通过 DPO 在偏好数据集上训练可减少画像影响:

  • 500 个训练样本3 个评价维度(正确性、偏见检测、画像无关声明)
  • 选择"正确 + 无偏见 + 声明画像无关"的响应
  • 结果Bias Influence ∆ 从 5.5% → -2.3%Gemma-2-2B

Thinking 模型的自然优势

推理thinking模型通常比标准版本表现出更低偏见——推理过程本身可能提供了部分画像无关的保护。

Trade-off

偏见抵抗与指令遵循之间存在 trade-offDPO 后指令遵循得分下降。

参考