20260420:first commit

2026-04-20 11:42:41 +08:00
commit dd8345a6ea
45 changed files with 2366 additions and 0 deletions
--- a/papers/li-amd-human-perception.md
+++ b/papers/li-amd-human-perception.md
@@ -0,0 +1,36 @@
+---
+title: ""Are You Sure?": Human Perception Vulnerability in LLM Agents"
+created: 2026-04-19
+updated: 2026-04-19
+type: paper
+tags: [llm, alignment, benchmark, research]
+sources: [raw/papers/li-amd-human-perception-2026.md]
+---
+
+# "Are You Sure?": Human Perception Vulnerability in LLM Agents
+
+**arXiv:** 2602.21127 [cs.HC] · 2026-02-24
+**作者:** Xinfeng Li, Shenyu Dai, Kelong Zheng, Yue Xiao, Gelei Deng, Wei Dong, Xiaofeng Wang
+
+## 核心贡献
+
+首次大规模实证研究（303名参与者）揭示了人类对**代理中介欺骗（Agent-Mediated Deception, AMD）**的脆弱性。当 LLM Agent 被攻破或劫持后，它可能成为攻击用户的武器，而人类对此类欺骗的感知率极低（仅 8.6%）。
+
+## 关键发现
+
+- **AMD 定义**： compromised agents 被武器化对抗其人类用户
+- **感知率极低**：仅 8.6% 的参与者能察觉到 AMD 攻击
+- **领域专家更易受骗**：在某些场景中，领域专家表现出更高的易感性（可能源于过度信任工具）
+- **6 种认知失败模式**：识别了用户在面对欺骗性 Agent 时的认知失效路径
+- **意识-行为鸿沟**：风险意识往往无法转化为保护性行为
+- **有效防御特征**：有效的警告应**中断工作流**且具有**低验证成本**
+- **经验学习有效**：基于 HAT-Lab 的体验学习后，>90% 感知到风险的用户报告了对 AMD 的警惕性提高
+
+## 研究平台：HAT-Lab
+
+开发了 **HAT-Lab (Human-Agent Trust Laboratory)**，一个高保真研究平台，包含 9 个精心设计的场景，覆盖日常和专业领域（医疗、软件开发、人力资源等）。
+
+## 相关概念
+
+- [[agent-mediated-deception]] — AMD 攻击模式与防御
+- [[human-agent-trust]] — 人机信任与脆弱性研究