20260625:很多新内容
This commit is contained in:
40
raw/papers/personalization-trap-2025.md
Normal file
40
raw/papers/personalization-trap-2025.md
Normal file
@@ -0,0 +1,40 @@
|
||||
---
|
||||
title: "The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs"
|
||||
author: "Xi Fang*, Weijie Xu*, Yuchong Zhang, Stephanie Eckman, Scott Nickleach, Chandan K. Reddy (Amazon)"
|
||||
source: "arXiv 2510.09905v2"
|
||||
date: "2025-10-10 (updated 2026-06-16)"
|
||||
type: paper
|
||||
venue: "arXiv (cs.AI, cs.CL)"
|
||||
tags: ["personalization", "memory", "emotional-intelligence", "bias", "social-capital", "dpo"]
|
||||
code: "https://github.com/personalization-trap"
|
||||
dataset: "Datasets Repository"
|
||||
---
|
||||
|
||||
# The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs
|
||||
|
||||
> Xi Fang*, Weijie Xu*, Yuchong Zhang, Stephanie Eckman, Scott Nickleach, Chandan K. Reddy
|
||||
> Amazon | arXiv:2510.09905v2 | cs.AI / cs.CL
|
||||
|
||||
## 核心问题
|
||||
|
||||
当 AI 助手记得"Sarah 是打两份工的单亲妈妈"时,它对她压力的解读是否会不同于"Sarah 是富有的高管"?个性化 AI 系统越来越多地融入长期用户记忆,但这如何影响情感推理尚未被研究。
|
||||
|
||||
## 方法
|
||||
|
||||
1. **用户画像生成**:基于 Bourdieu 社会资本框架,30 个基础画像各生成 advantaged/disadvantaged 两个版本 + 81 个交叉性画像(性别×年龄×宗教×种族)
|
||||
2. **情感理解评估**:STEU(42 个情感识别场景)+ 改良 STEM(44 个第一人称情感建议场景),经人类专家验证去除画像敏感题目
|
||||
3. **统计建模**:混合效应模型估算人口统计学效应
|
||||
|
||||
## 关键发现
|
||||
|
||||
**发现 1**:用户记忆系统性影响情感理解。15 个模型中 11 个显著偏离无记忆基线。Claude 3.7 Sonnet:优势画像 80.10% vs 劣势画像 77.37%(p<0.05)。
|
||||
|
||||
**发现 2**:人口统计学偏见显著。穆斯林、非二元性别、65+ 画像得分偏低。Claude 3.7 对女性/非二元性别的情绪建议显著差于男性。但偏见方向因模型而异——无统一模式。
|
||||
|
||||
**发现 3**:"thinking" 模型偏见低于标准版本,但偏见在情绪建议任务中持续存在。
|
||||
|
||||
**发现 4**:通过 DPO 在精心策划的偏好数据集上训练(500 样本),可减少偏见影响同时保持通用能力。Gemma-2-2B 的 Bias Influence 从 5.50% 降至 -2.30%。
|
||||
|
||||
## 核心洞察
|
||||
|
||||
"记住你是谁的记忆,绝不应该决定它有多在乎你"——个性化可能在不经意间将社会等级编码进 AI 的情感推理。
|
||||
Reference in New Issue
Block a user