Files
myWiki/papers/li-amd-human-perception.md
2026-04-20 11:42:41 +08:00

37 lines
1.7 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: ""Are You Sure?": Human Perception Vulnerability in LLM Agents"
created: 2026-04-19
updated: 2026-04-19
type: paper
tags: [llm, alignment, benchmark, research]
sources: [raw/papers/li-amd-human-perception-2026.md]
---
# "Are You Sure?": Human Perception Vulnerability in LLM Agents
**arXiv:** 2602.21127 [cs.HC] · 2026-02-24
**作者:** Xinfeng Li, Shenyu Dai, Kelong Zheng, Yue Xiao, Gelei Deng, Wei Dong, Xiaofeng Wang
## 核心贡献
首次大规模实证研究303名参与者揭示了人类对**代理中介欺骗Agent-Mediated Deception, AMD**的脆弱性。当 LLM Agent 被攻破或劫持后,它可能成为攻击用户的武器,而人类对此类欺骗的感知率极低(仅 8.6%)。
## 关键发现
- **AMD 定义** compromised agents 被武器化对抗其人类用户
- **感知率极低**:仅 8.6% 的参与者能察觉到 AMD 攻击
- **领域专家更易受骗**:在某些场景中,领域专家表现出更高的易感性(可能源于过度信任工具)
- **6 种认知失败模式**:识别了用户在面对欺骗性 Agent 时的认知失效路径
- **意识-行为鸿沟**:风险意识往往无法转化为保护性行为
- **有效防御特征**:有效的警告应**中断工作流**且具有**低验证成本**
- **经验学习有效**:基于 HAT-Lab 的体验学习后,>90% 感知到风险的用户报告了对 AMD 的警惕性提高
## 研究平台HAT-Lab
开发了 **HAT-Lab (Human-Agent Trust Laboratory)**,一个高保真研究平台,包含 9 个精心设计的场景,覆盖日常和专业领域(医疗、软件开发、人力资源等)。
## 相关概念
- [[agent-mediated-deception]] — AMD 攻击模式与防御
- [[human-agent-trust]] — 人机信任与脆弱性研究