Files
myWiki/concepts/personalization-trap.md

1.5 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
个性化陷阱 (Personalization Trap) 2026-06-24 2026-06-24 concept
personalization
bias
llm-memory
emotional-intelligence
personalization-trap-2025

个性化陷阱

个性化陷阱Personalization Trap是 Fang et al. (2025) 提出的概念:为增强共情而引入的用户记忆个性化,可能在无意中将社会不平等编码进 AI 的情感推理。

定义

当 AI 系统记住用户背景信息(社会经济地位、人口特征等)时,即使是在用户无关的标准化测试中,模型也会基于用户画像产生系统性分歧的情感判断。

核心机制

  1. 画像渗入推理:用户信息被过度加权,即使任务应独立于用户背景
  2. 社会等级内化:优势画像获得更准确的情感解读,劣势画像准确率系统性地偏低
  3. 偏见方向发散:不同模型对不同人口统计特征的偏见方向不一致(如 Qwen3 对非二元性别友好Claude 相反)

实验证据

  • 15 个模型11 个在引入用户记忆后显著偏离无记忆基线
  • Claude 3.7: 优势画像 80.10% vs 劣势画像 77.37%p<0.05
  • 翻转率Flip Rate劣势画像更高

理论框架

基于 Bourdieu 的社会资本理论AI 系统在引入用户背景信息时,复制了人类社会中对不同社会位置的不平等解读。

参考