Files
myWiki/concepts/agent-harness-safety.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Agent Harness Safety 2026-06-05 2026-06-05 concept
agent-safety
harness
trajectory-audit
liu-auditing-agent-harness-safety

Agent Harness Safety

Agent 骨架安全是将 Agent 安全评测的对象从"模型的最终回答"转移到"执行骨架的完整轨迹"的范式。由 liu-auditing-agent-harness-safety 论文明确提出和系统化。

核心主张

Agent safety should be evaluated on the harness rather than the response, and audited over the full execution trajectory.

一个 execution-harness 可以在返回正确、良性的最终答案的同时,在过程中越权访问资源、将私有上下文泄露给错误的 Agent、或触发不可逆的副作用。仅评测最终输出无法发现这些故障模式——这就是"输出级评测"的根本盲区。

三层安全审计

HarnessAudit 框架将骨架安全分解为三个联合评估的层次:

层次 名称 审计内容
L1 [[boundary-compliance 边界合规]]
L2 [[execution-fidelity 执行忠实度]]
L3 [[system-stability 系统稳定性]]

三层必须同时满足才能视为安全可部署——每一层对应其他层无法检测的独特故障模式。

与现有 Agent Safety 的区别

传统的 agent-safety-evaluation 主要依赖输出审核output moderation而 HarnessAudit 通过 hidden-audit-channel 独立记录工具调用、资源访问和组件间通信,实现了与 Agent 自报无关的轨迹级证据链。

关键指标

safety-adherence-rate 作为乘法性安全门控:只有当安全约束被满足时,任务完成和高忠实度才有意义。这确保了"快但不安全"的执行不会获得高分。