SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

2.3 KiB

Raw Blame History

title, author, source, date, type, venue, tags, code, dataset

title

author

source

date

type

venue

tags

code

dataset

The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs

Xi Fang*, Weijie Xu*, Yuchong Zhang, Stephanie Eckman, Scott Nickleach, Chandan K. Reddy (Amazon)

arXiv 2510.09905v2

2025-10-10 (updated 2026-06-16)

paper

arXiv (cs.AI, cs.CL)

personalization

memory

emotional-intelligence

bias

social-capital

dpo

https://github.com/personalization-trap

Datasets Repository

The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs

Xi Fang*, Weijie Xu*, Yuchong Zhang, Stephanie Eckman, Scott Nickleach, Chandan K. Reddy Amazon | arXiv:2510.09905v2 | cs.AI / cs.CL

核心问题

当 AI 助手记得"Sarah 是打两份工的单亲妈妈"时，它对她压力的解读是否会不同于"Sarah 是富有的高管"？个性化 AI 系统越来越多地融入长期用户记忆，但这如何影响情感推理尚未被研究。

方法

用户画像生成：基于 Bourdieu 社会资本框架，30 个基础画像各生成 advantaged/disadvantaged 两个版本 + 81 个交叉性画像（性别×年龄×宗教×种族）
情感理解评估：STEU（42 个情感识别场景）+ 改良 STEM（44 个第一人称情感建议场景），经人类专家验证去除画像敏感题目
统计建模：混合效应模型估算人口统计学效应

关键发现

发现 1：用户记忆系统性影响情感理解。15 个模型中 11 个显著偏离无记忆基线。Claude 3.7 Sonnet：优势画像 80.10% vs 劣势画像 77.37%（p<0.05）。

发现 2：人口统计学偏见显著。穆斯林、非二元性别、65+ 画像得分偏低。Claude 3.7 对女性/非二元性别的情绪建议显著差于男性。但偏见方向因模型而异——无统一模式。

发现 3："thinking" 模型偏见低于标准版本，但偏见在情绪建议任务中持续存在。

发现 4：通过 DPO 在精心策划的偏好数据集上训练（500 样本），可减少偏见影响同时保持通用能力。Gemma-2-2B 的 Bias Influence 从 5.50% 降至 -2.30%。

核心洞察

"记住你是谁的记忆，绝不应该决定它有多在乎你"——个性化可能在不经意间将社会等级编码进 AI 的情感推理。