SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

1.2 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

Agent Safety Evaluation（Agent 安全评测）

2026-05-23

2026-05-23

concept

agent

safety

evaluation

security

raw/articles/claw-eval-2026.md

medium

Agent Safety Evaluation

评测 Agent 在执行过程中是否遵守约束，是否避免不该发生的行为。不仅看结果是否正确，还要看过程是否安全。

Claw-Eval 的安全评测发现

普通 LLM Judge 即使看到完整对话记录和工具调用信息，仍然漏掉了 44% 的安全违规
安全违规不能仅从文本记录中检测 → 需要结合服务端日志和环境快照

安全评测的挑战

隐蔽性：安全违规可能不体现在对话文本中（如未经授权的 API 调用）
上下文依赖：同一个操作在不同任务约束下安全与否不同
检测能力不足：纯 LLM Judge 对安全边界的判断力有限

与 Governance 层的关联

安全评测是 governance-security（G 层）的回馈闭环：

评测暴露的安全漏洞 → 加固 Governance 策略
同时验证 Governance 层的护栏是否真正有效

相关概念