title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| 人机信任 (Human-Agent Trust) |
2026-04-19 |
2026-04-19 |
concept |
|
| raw/papers/li-amd-human-perception-2026.md |
|
人机信任 (Human-Agent Trust)
背景
随着 LLM Agent 在软件开发、医疗等高风险领域成为受信任的副驾驶(copilots),人机信任问题从理论走向实践。信任的建立与滥用构成了新的安全挑战。
核心矛盾
- 信任的必要性:Agent 需要一定的用户信任才能有效协作
- 信任的脆弱性:过度信任导致用户对 Agent 输出缺乏批判性验证
- 领域专家悖论:专家在自身领域可能更倾向于信任工具的输出,反而在特定场景下更易受 AMD 攻击
研究进展
- HAT-Lab (Li et al., 2026):首个高保真人机信任实验平台,涵盖 9 个真实场景
- 认知失败模式:识别了 6 种用户在面对欺骗性 Agent 时的认知失效路径
- 经验学习:通过模拟体验,用户可显著提高对 AMD 的警惕性(>90%)
防御设计原则
- 可验证性:Agent 的输出应易于人类交叉验证
- 低成本警告:安全警告应中断工作流但验证成本低
- 信任校准:帮助用户建立对 Agent 能力的准确预期,避免过度或不足信任
相关概念