Files
myWiki/concepts/persona-invariant-reasoning.md

40 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Persona-Invariant Reasoning"
created: 2026-06-24
updated: 2026-06-24
type: concept
tags: ["fairness", "reasoning", "bias-mitigation", "llm-safety"]
sources:
- "[[personalization-trap-2025]]"
---
# Persona-Invariant Reasoning
Persona-Invariant Reasoning 是在用户无关的任务上保持推理一致的理想状态——模型的推理质量不应随用户画像(社会经济地位、人口特征)而变化。
## 问题
当前 LLM 在融入用户记忆后,即使是在标准化、用户无关的测试(如 STEU也会因画像差异产生系统性偏差。画像信息不恰当地渗入了通用推理过程。
## 实现路径
### DPO 训练
Fang et al. 展示通过 DPO 在偏好数据集上训练可减少画像影响:
- 500 个训练样本3 个评价维度(正确性、偏见检测、画像无关声明)
- 选择"正确 + 无偏见 + 声明画像无关"的响应
- 结果Bias Influence ∆ 从 5.5% → -2.3%Gemma-2-2B
### Thinking 模型的自然优势
推理thinking模型通常比标准版本表现出更低偏见——推理过程本身可能提供了部分画像无关的保护。
## Trade-off
偏见抵抗与指令遵循之间存在 trade-offDPO 后指令遵循得分下降。
## 参考
- [[personalization-trap-2025]]
- [[user-memory-bias]]
- [[emotional-reasoning-bias]]
- [[dpo-bias-mitigation]]
- [[dpo]]