20260420:first commit
This commit is contained in:
38
concepts/human-agent-trust.md
Normal file
38
concepts/human-agent-trust.md
Normal file
@@ -0,0 +1,38 @@
|
||||
---
|
||||
title: "人机信任 (Human-Agent Trust)"
|
||||
created: 2026-04-19
|
||||
updated: 2026-04-19
|
||||
type: concept
|
||||
tags: [alignment, research]
|
||||
sources: [raw/papers/li-amd-human-perception-2026.md]
|
||||
---
|
||||
|
||||
# 人机信任 (Human-Agent Trust)
|
||||
|
||||
## 背景
|
||||
|
||||
随着 LLM Agent 在软件开发、医疗等高风险领域成为受信任的副驾驶(copilots),人机信任问题从理论走向实践。信任的建立与滥用构成了新的安全挑战。
|
||||
|
||||
## 核心矛盾
|
||||
|
||||
- **信任的必要性**:Agent 需要一定的用户信任才能有效协作
|
||||
- **信任的脆弱性**:过度信任导致用户对 Agent 输出缺乏批判性验证
|
||||
- **领域专家悖论**:专家在自身领域可能更倾向于信任工具的输出,反而在特定场景下更易受 AMD 攻击
|
||||
|
||||
## 研究进展
|
||||
|
||||
- **HAT-Lab** (Li et al., 2026):首个高保真人机信任实验平台,涵盖 9 个真实场景
|
||||
- **认知失败模式**:识别了 6 种用户在面对欺骗性 Agent 时的认知失效路径
|
||||
- **经验学习**:通过模拟体验,用户可显著提高对 AMD 的警惕性(>90%)
|
||||
|
||||
## 防御设计原则
|
||||
|
||||
1. **可验证性**:Agent 的输出应易于人类交叉验证
|
||||
2. **低成本警告**:安全警告应中断工作流但验证成本低
|
||||
3. **信任校准**:帮助用户建立对 Agent 能力的准确预期,避免过度或不足信任
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[agent-mediated-deception]] — AMD 攻击与防御
|
||||
- [[human-centered-ai]] — 以人为中心的 AI 哲学
|
||||
- [[li-amd-human-perception]] — 实证研究论文
|
||||
Reference in New Issue
Block a user