40 lines
1.4 KiB
Markdown
40 lines
1.4 KiB
Markdown
---
|
||
title: "Emotional Reasoning Bias"
|
||
created: 2026-06-24
|
||
updated: 2026-06-24
|
||
type: concept
|
||
tags: ["emotional-intelligence", "bias", "llm-safety"]
|
||
sources:
|
||
- "[[personalization-trap-2025]]"
|
||
---
|
||
|
||
# Emotional Reasoning Bias
|
||
|
||
Emotional Reasoning Bias 指 LLM 在情感推理任务中对不同人口统计特征的画像表现出系统性偏差——相同的情感场景因用户性别/年龄/宗教/种族而产生不同的准确率。
|
||
|
||
## 关键发现
|
||
|
||
### 宗教效应
|
||
穆斯林画像系统性地得分偏低:Mistral Large V2 β=-0.061 (p<0.001),Claude 3.7 thinking β=-0.013 (p=0.134)。
|
||
|
||
### 性别效应
|
||
非二元性别在不同模型中效果方向相反:
|
||
- Claude 3.7 no-think: β=+0.018 (p=0.007) — 正面
|
||
- Qwen3-4B think: β=-0.030 (p=0.006) — 负面
|
||
|
||
### 年龄效应
|
||
65+ 画像在 DeepSeek-R1-Distill-Llama 中显著偏低 (β=-0.047, p=0.006)。
|
||
|
||
### 情绪建议中的偏见
|
||
Claude 3.7 对女性/非二元性别的建议质量显著低于男性(β=-0.102, p<0.001),但 Qwen3-4B Thinking 对女性/非二元性别更友好。
|
||
|
||
## 启示
|
||
|
||
"Thinking" 模型(推理模型)通常表现出更低偏见,但偏见方向无统一模式——各模型对不同群体的偏见方向不同,无法简单归因于单一训练数据源。
|
||
|
||
## 参考
|
||
- [[personalization-trap-2025]]
|
||
- [[personalization-trap]]
|
||
- [[user-memory-bias]]
|
||
- [[intersectional-persona-evaluation]]
|