SidneyZhang/myWiki

Files

Sidney Zhang dd8345a6ea

20260420:first commit

2026-04-20 11:42:41 +08:00

1.5 KiB

Raw Permalink Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

人机信任 (Human-Agent Trust)

2026-04-19

2026-04-19

concept

alignment

research

raw/papers/li-amd-human-perception-2026.md

人机信任 (Human-Agent Trust)

背景

随着 LLM Agent 在软件开发、医疗等高风险领域成为受信任的副驾驶（copilots），人机信任问题从理论走向实践。信任的建立与滥用构成了新的安全挑战。

核心矛盾

信任的必要性：Agent 需要一定的用户信任才能有效协作
信任的脆弱性：过度信任导致用户对 Agent 输出缺乏批判性验证
领域专家悖论：专家在自身领域可能更倾向于信任工具的输出，反而在特定场景下更易受 AMD 攻击

研究进展

HAT-Lab (Li et al., 2026)：首个高保真人机信任实验平台，涵盖 9 个真实场景
认知失败模式：识别了 6 种用户在面对欺骗性 Agent 时的认知失效路径
经验学习：通过模拟体验，用户可显著提高对 AMD 的警惕性（>90%）

防御设计原则

可验证性：Agent 的输出应易于人类交叉验证
低成本警告：安全警告应中断工作流但验证成本低
信任校准：帮助用户建立对 Agent 能力的准确预期，避免过度或不足信任

相关概念

agent-mediated-deception — AMD 攻击与防御
human-centered-ai — 以人为中心的 AI 哲学
li-amd-human-perception — 实证研究论文