1.7 KiB
1.7 KiB
title: ""Are You Sure?": Human Perception Vulnerability in LLM Agents"
created: 2026-04-19
updated: 2026-04-19
type: paper
tags: [llm, alignment, benchmark, research]
sources: [raw/papers/li-amd-human-perception-2026.md]
"Are You Sure?": Human Perception Vulnerability in LLM Agents
arXiv: 2602.21127 [cs.HC] · 2026-02-24 作者: Xinfeng Li, Shenyu Dai, Kelong Zheng, Yue Xiao, Gelei Deng, Wei Dong, Xiaofeng Wang
核心贡献
首次大规模实证研究(303名参与者)揭示了人类对**代理中介欺骗(Agent-Mediated Deception, AMD)**的脆弱性。当 LLM Agent 被攻破或劫持后,它可能成为攻击用户的武器,而人类对此类欺骗的感知率极低(仅 8.6%)。
关键发现
- AMD 定义: compromised agents 被武器化对抗其人类用户
- 感知率极低:仅 8.6% 的参与者能察觉到 AMD 攻击
- 领域专家更易受骗:在某些场景中,领域专家表现出更高的易感性(可能源于过度信任工具)
- 6 种认知失败模式:识别了用户在面对欺骗性 Agent 时的认知失效路径
- 意识-行为鸿沟:风险意识往往无法转化为保护性行为
- 有效防御特征:有效的警告应中断工作流且具有低验证成本
- 经验学习有效:基于 HAT-Lab 的体验学习后,>90% 感知到风险的用户报告了对 AMD 的警惕性提高
研究平台:HAT-Lab
开发了 HAT-Lab (Human-Agent Trust Laboratory),一个高保真研究平台,包含 9 个精心设计的场景,覆盖日常和专业领域(医疗、软件开发、人力资源等)。
相关概念
- agent-mediated-deception — AMD 攻击模式与防御
- human-agent-trust — 人机信任与脆弱性研究