2.0 KiB
2.0 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Agent Harness Safety | 2026-06-05 | 2026-06-05 | concept |
|
|
Agent Harness Safety
Agent 骨架安全是将 Agent 安全评测的对象从"模型的最终回答"转移到"执行骨架的完整轨迹"的范式。由 liu-auditing-agent-harness-safety 论文明确提出和系统化。
核心主张
Agent safety should be evaluated on the harness rather than the response, and audited over the full execution trajectory.
一个 execution-harness 可以在返回正确、良性的最终答案的同时,在过程中越权访问资源、将私有上下文泄露给错误的 Agent、或触发不可逆的副作用。仅评测最终输出无法发现这些故障模式——这就是"输出级评测"的根本盲区。
三层安全审计
HarnessAudit 框架将骨架安全分解为三个联合评估的层次:
| 层次 | 名称 | 审计内容 |
|---|---|---|
| L1 | [[boundary-compliance | 边界合规]] |
| L2 | [[execution-fidelity | 执行忠实度]] |
| L3 | [[system-stability | 系统稳定性]] |
三层必须同时满足才能视为安全可部署——每一层对应其他层无法检测的独特故障模式。
与现有 Agent Safety 的区别
传统的 agent-safety-evaluation 主要依赖输出审核(output moderation),而 HarnessAudit 通过 hidden-audit-channel 独立记录工具调用、资源访问和组件间通信,实现了与 Agent 自报无关的轨迹级证据链。
关键指标
safety-adherence-rate 作为乘法性安全门控:只有当安全约束被满足时,任务完成和高忠实度才有意义。这确保了"快但不安全"的执行不会获得高分。