Files
myWiki/concepts/agent-safety-evaluation.md
2026-06-01 10:46:01 +08:00

38 lines
1.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Agent Safety EvaluationAgent 安全评测)"
created: 2026-05-23
updated: 2026-05-23
type: concept
tags: [agent, safety, evaluation, security]
sources: [raw/articles/claw-eval-2026.md]
confidence: medium
---
# Agent Safety Evaluation
> 评测 Agent 在执行过程中是否遵守约束,是否避免不该发生的行为。不仅看结果是否正确,还要看过程是否安全。
## Claw-Eval 的安全评测发现
- 普通 LLM Judge 即使看到完整对话记录和工具调用信息,仍然**漏掉了 44% 的安全违规**
- 安全违规不能仅从文本记录中检测 → 需要结合服务端日志和环境快照
## 安全评测的挑战
- **隐蔽性**:安全违规可能不体现在对话文本中(如未经授权的 API 调用)
- **上下文依赖**:同一个操作在不同任务约束下安全与否不同
- **检测能力不足**:纯 LLM Judge 对安全边界的判断力有限
## 与 Governance 层的关联
安全评测是 [[governance-security]]G 层)的回馈闭环:
- 评测暴露的安全漏洞 → 加固 Governance 策略
- 同时验证 Governance 层的护栏是否真正有效
## 相关概念
- [[agent-process-evaluation]]
- [[agent-robustness-evaluation]]
- [[governance-security]]
- [[claw-eval]]