20260625:很多新内容
This commit is contained in:
39
concepts/persona-invariant-reasoning.md
Normal file
39
concepts/persona-invariant-reasoning.md
Normal file
@@ -0,0 +1,39 @@
|
||||
---
|
||||
title: "Persona-Invariant Reasoning"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: concept
|
||||
tags: ["fairness", "reasoning", "bias-mitigation", "llm-safety"]
|
||||
sources:
|
||||
- "[[personalization-trap-2025]]"
|
||||
---
|
||||
|
||||
# Persona-Invariant Reasoning
|
||||
|
||||
Persona-Invariant Reasoning 是在用户无关的任务上保持推理一致的理想状态——模型的推理质量不应随用户画像(社会经济地位、人口特征)而变化。
|
||||
|
||||
## 问题
|
||||
|
||||
当前 LLM 在融入用户记忆后,即使是在标准化、用户无关的测试(如 STEU)中,也会因画像差异产生系统性偏差。画像信息不恰当地渗入了通用推理过程。
|
||||
|
||||
## 实现路径
|
||||
|
||||
### DPO 训练
|
||||
Fang et al. 展示通过 DPO 在偏好数据集上训练可减少画像影响:
|
||||
- 500 个训练样本,3 个评价维度(正确性、偏见检测、画像无关声明)
|
||||
- 选择"正确 + 无偏见 + 声明画像无关"的响应
|
||||
- 结果:Bias Influence ∆ 从 5.5% → -2.3%(Gemma-2-2B)
|
||||
|
||||
### Thinking 模型的自然优势
|
||||
推理(thinking)模型通常比标准版本表现出更低偏见——推理过程本身可能提供了部分画像无关的保护。
|
||||
|
||||
## Trade-off
|
||||
|
||||
偏见抵抗与指令遵循之间存在 trade-off:DPO 后指令遵循得分下降。
|
||||
|
||||
## 参考
|
||||
- [[personalization-trap-2025]]
|
||||
- [[user-memory-bias]]
|
||||
- [[emotional-reasoning-bias]]
|
||||
- [[dpo-bias-mitigation]]
|
||||
- [[dpo]]
|
||||
Reference in New Issue
Block a user