Agent Harness Safety

Agent 骨架安全是将 Agent 安全评测的对象从"模型的最终回答"转移到"执行骨架的完整轨迹"的范式。由 liu-auditing-agent-harness-safety 论文明确提出和系统化。

核心主张

Agent safety should be evaluated on the harness rather than the response, and audited over the full execution trajectory.

一个 execution-harness 可以在返回正确、良性的最终答案的同时，在过程中越权访问资源、将私有上下文泄露给错误的 Agent、或触发不可逆的副作用。仅评测最终输出无法发现这些故障模式——这就是"输出级评测"的根本盲区。

HarnessAudit 框架将骨架安全分解为三个联合评估的层次：

三层必须同时满足才能视为安全可部署——每一层对应其他层无法检测的独特故障模式。

传统的 agent-safety-evaluation 主要依赖输出审核（output moderation），而 HarnessAudit 通过 hidden-audit-channel 独立记录工具调用、资源访问和组件间通信，实现了与 Agent 自报无关的轨迹级证据链。

safety-adherence-rate 作为乘法性安全门控：只有当安全约束被满足时，任务完成和高忠实度才有意义。这确保了"快但不安全"的执行不会获得高分。