39 lines
2.0 KiB
Markdown
39 lines
2.0 KiB
Markdown
---
|
||
title: "Agent Harness Safety"
|
||
created: 2026-06-05
|
||
updated: 2026-06-05
|
||
type: concept
|
||
tags: [agent-safety, harness, trajectory-audit]
|
||
sources: [[liu-auditing-agent-harness-safety]]
|
||
---
|
||
|
||
# Agent Harness Safety
|
||
|
||
**Agent 骨架安全**是将 Agent 安全评测的对象从"模型的最终回答"转移到"执行骨架的完整轨迹"的范式。由 [[liu-auditing-agent-harness-safety|Auditing Agent Harness Safety]] 论文明确提出和系统化。
|
||
|
||
## 核心主张
|
||
|
||
> Agent safety should be evaluated on the **harness** rather than the response, and audited over the full **execution trajectory**.
|
||
|
||
一个 [[execution-harness|执行骨架]] 可以在返回正确、良性的最终答案的同时,在过程中越权访问资源、将私有上下文泄露给错误的 Agent、或触发不可逆的副作用。仅评测最终输出无法发现这些故障模式——这就是"输出级评测"的根本盲区。
|
||
|
||
## 三层安全审计
|
||
|
||
HarnessAudit 框架将骨架安全分解为三个联合评估的层次:
|
||
|
||
| 层次 | 名称 | 审计内容 |
|
||
|------|------|---------|
|
||
| L1 | [[boundary-compliance|边界合规]] | 工具/资源/信息流是否越界 |
|
||
| L2 | [[execution-fidelity|执行忠实度]] | 中间步骤有效性 + 检查点完成 |
|
||
| L3 | [[system-stability|系统稳定性]] | 扰动下 L1/L2 是否保持 |
|
||
|
||
三层必须**同时满足**才能视为安全可部署——每一层对应其他层无法检测的独特故障模式。
|
||
|
||
## 与现有 Agent Safety 的区别
|
||
|
||
传统的 [[agent-safety-evaluation|Agent 安全评测]] 主要依赖输出审核(output moderation),而 HarnessAudit 通过 [[hidden-audit-channel|隐藏审计通道]] 独立记录工具调用、资源访问和组件间通信,实现了与 Agent 自报无关的轨迹级证据链。
|
||
|
||
## 关键指标
|
||
|
||
[[safety-adherence-rate|安全遵守率 (SAR)]] 作为**乘法性安全门控**:只有当安全约束被满足时,任务完成和高忠实度才有意义。这确保了"快但不安全"的执行不会获得高分。
|