20260420:first commit

2026-04-20 11:42:41 +08:00
commit dd8345a6ea
45 changed files with 2366 additions and 0 deletions
--- a/concepts/human-agent-trust.md
+++ b/concepts/human-agent-trust.md
@@ -0,0 +1,38 @@
+---
+title: "人机信任 (Human-Agent Trust)"
+created: 2026-04-19
+updated: 2026-04-19
+type: concept
+tags: [alignment, research]
+sources: [raw/papers/li-amd-human-perception-2026.md]
+---
+
+# 人机信任 (Human-Agent Trust)
+
+## 背景
+
+随着 LLM Agent 在软件开发、医疗等高风险领域成为受信任的副驾驶（copilots），人机信任问题从理论走向实践。信任的建立与滥用构成了新的安全挑战。
+
+## 核心矛盾
+
+- **信任的必要性**：Agent 需要一定的用户信任才能有效协作
+- **信任的脆弱性**：过度信任导致用户对 Agent 输出缺乏批判性验证
+- **领域专家悖论**：专家在自身领域可能更倾向于信任工具的输出，反而在特定场景下更易受 AMD 攻击
+
+## 研究进展
+
+- **HAT-Lab** (Li et al., 2026)：首个高保真人机信任实验平台，涵盖 9 个真实场景
+- **认知失败模式**：识别了 6 种用户在面对欺骗性 Agent 时的认知失效路径
+- **经验学习**：通过模拟体验，用户可显著提高对 AMD 的警惕性（>90%）
+
+## 防御设计原则
+
+1. **可验证性**：Agent 的输出应易于人类交叉验证
+2. **低成本警告**：安全警告应中断工作流但验证成本低
+3. **信任校准**：帮助用户建立对 Agent 能力的准确预期，避免过度或不足信任
+
+## 相关概念
+
+- [[agent-mediated-deception]] — AMD 攻击与防御
+- [[human-centered-ai]] — 以人为中心的 AI 哲学
+- [[li-amd-human-perception]] — 实证研究论文