Files
myWiki/concepts/human-agent-trust.md
2026-04-20 11:42:41 +08:00

39 lines
1.5 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "人机信任 (Human-Agent Trust)"
created: 2026-04-19
updated: 2026-04-19
type: concept
tags: [alignment, research]
sources: [raw/papers/li-amd-human-perception-2026.md]
---
# 人机信任 (Human-Agent Trust)
## 背景
随着 LLM Agent 在软件开发、医疗等高风险领域成为受信任的副驾驶copilots人机信任问题从理论走向实践。信任的建立与滥用构成了新的安全挑战。
## 核心矛盾
- **信任的必要性**Agent 需要一定的用户信任才能有效协作
- **信任的脆弱性**:过度信任导致用户对 Agent 输出缺乏批判性验证
- **领域专家悖论**:专家在自身领域可能更倾向于信任工具的输出,反而在特定场景下更易受 AMD 攻击
## 研究进展
- **HAT-Lab** (Li et al., 2026):首个高保真人机信任实验平台,涵盖 9 个真实场景
- **认知失败模式**:识别了 6 种用户在面对欺骗性 Agent 时的认知失效路径
- **经验学习**:通过模拟体验,用户可显著提高对 AMD 的警惕性(>90%
## 防御设计原则
1. **可验证性**Agent 的输出应易于人类交叉验证
2. **低成本警告**:安全警告应中断工作流但验证成本低
3. **信任校准**:帮助用户建立对 Agent 能力的准确预期,避免过度或不足信任
## 相关概念
- [[agent-mediated-deception]] — AMD 攻击与防御
- [[human-centered-ai]] — 以人为中心的 AI 哲学
- [[li-amd-human-perception]] — 实证研究论文