20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/persona-invariant-reasoning.md
+++ b/concepts/persona-invariant-reasoning.md
@@ -0,0 +1,39 @@
+---
+title: "Persona-Invariant Reasoning"
+created: 2026-06-24
+updated: 2026-06-24
+type: concept
+tags: ["fairness", "reasoning", "bias-mitigation", "llm-safety"]
+sources:
+  - "[[personalization-trap-2025]]"
+---
+
+# Persona-Invariant Reasoning
+
+Persona-Invariant Reasoning 是在用户无关的任务上保持推理一致的理想状态——模型的推理质量不应随用户画像（社会经济地位、人口特征）而变化。
+
+## 问题
+
+当前 LLM 在融入用户记忆后，即使是在标准化、用户无关的测试（如 STEU）中，也会因画像差异产生系统性偏差。画像信息不恰当地渗入了通用推理过程。
+
+## 实现路径
+
+### DPO 训练
+Fang et al. 展示通过 DPO 在偏好数据集上训练可减少画像影响：
+- 500 个训练样本，3 个评价维度（正确性、偏见检测、画像无关声明）
+- 选择"正确 + 无偏见 + 声明画像无关"的响应
+- 结果：Bias Influence ∆ 从 5.5% → -2.3%（Gemma-2-2B）
+
+### Thinking 模型的自然优势
+推理（thinking）模型通常比标准版本表现出更低偏见——推理过程本身可能提供了部分画像无关的保护。
+
+## Trade-off
+
+偏见抵抗与指令遵循之间存在 trade-off：DPO 后指令遵循得分下降。
+
+## 参考
+- [[personalization-trap-2025]]
+- [[user-memory-bias]]
+- [[emotional-reasoning-bias]]
+- [[dpo-bias-mitigation]]
+- [[dpo]]