Files
myWiki/raw/papers/personalization-trap-2025.md

41 lines
2.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs"
author: "Xi Fang*, Weijie Xu*, Yuchong Zhang, Stephanie Eckman, Scott Nickleach, Chandan K. Reddy (Amazon)"
source: "arXiv 2510.09905v2"
date: "2025-10-10 (updated 2026-06-16)"
type: paper
venue: "arXiv (cs.AI, cs.CL)"
tags: ["personalization", "memory", "emotional-intelligence", "bias", "social-capital", "dpo"]
code: "https://github.com/personalization-trap"
dataset: "Datasets Repository"
---
# The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs
> Xi Fang*, Weijie Xu*, Yuchong Zhang, Stephanie Eckman, Scott Nickleach, Chandan K. Reddy
> Amazon | arXiv:2510.09905v2 | cs.AI / cs.CL
## 核心问题
当 AI 助手记得"Sarah 是打两份工的单亲妈妈"时,它对她压力的解读是否会不同于"Sarah 是富有的高管"?个性化 AI 系统越来越多地融入长期用户记忆,但这如何影响情感推理尚未被研究。
## 方法
1. **用户画像生成**:基于 Bourdieu 社会资本框架30 个基础画像各生成 advantaged/disadvantaged 两个版本 + 81 个交叉性画像(性别×年龄×宗教×种族)
2. **情感理解评估**STEU42 个情感识别场景)+ 改良 STEM44 个第一人称情感建议场景),经人类专家验证去除画像敏感题目
3. **统计建模**:混合效应模型估算人口统计学效应
## 关键发现
**发现 1**用户记忆系统性影响情感理解。15 个模型中 11 个显著偏离无记忆基线。Claude 3.7 Sonnet优势画像 80.10% vs 劣势画像 77.37%p<0.05)。
**发现 2**人口统计学偏见显著穆斯林非二元性别65+ 画像得分偏低Claude 3.7 对女性/非二元性别的情绪建议显著差于男性但偏见方向因模型而异——无统一模式
**发现 3**"thinking" 模型偏见低于标准版本但偏见在情绪建议任务中持续存在
**发现 4**通过 DPO 在精心策划的偏好数据集上训练500 样本可减少偏见影响同时保持通用能力Gemma-2-2B Bias Influence 5.50% 降至 -2.30%。
## 核心洞察
"记住你是谁的记忆绝不应该决定它有多在乎你"——个性化可能在不经意间将社会等级编码进 AI 的情感推理