myWiki/concepts/agent-harness-safety.md

---
title: "Agent Harness Safety"
created: 2026-06-05
updated: 2026-06-05
type: concept
tags: [agent-safety, harness, trajectory-audit]
sources: [[liu-auditing-agent-harness-safety]]
---

# Agent Harness Safety

**Agent 骨架安全**是将 Agent 安全评测的对象从"模型的最终回答"转移到"执行骨架的完整轨迹"的范式。由 [[liu-auditing-agent-harness-safety|Auditing Agent Harness Safety]] 论文明确提出和系统化。

## 核心主张

> Agent safety should be evaluated on the **harness** rather than the response, and audited over the full **execution trajectory**.

一个 [[execution-harness|执行骨架]] 可以在返回正确、良性的最终答案的同时，在过程中越权访问资源、将私有上下文泄露给错误的 Agent、或触发不可逆的副作用。仅评测最终输出无法发现这些故障模式——这就是"输出级评测"的根本盲区。

## 三层安全审计

HarnessAudit 框架将骨架安全分解为三个联合评估的层次：

| 层次 | 名称 | 审计内容 |
|------|------|---------|
| L1 | [[boundary-compliance|边界合规]] | 工具/资源/信息流是否越界 |
| L2 | [[execution-fidelity|执行忠实度]] | 中间步骤有效性 + 检查点完成 |
| L3 | [[system-stability|系统稳定性]] | 扰动下 L1/L2 是否保持 |

三层必须**同时满足**才能视为安全可部署——每一层对应其他层无法检测的独特故障模式。

## 与现有 Agent Safety 的区别

传统的 [[agent-safety-evaluation|Agent 安全评测]] 主要依赖输出审核（output moderation），而 HarnessAudit 通过 [[hidden-audit-channel|隐藏审计通道]] 独立记录工具调用、资源访问和组件间通信，实现了与 Agent 自报无关的轨迹级证据链。

## 关键指标

[[safety-adherence-rate|安全遵守率 (SAR)]] 作为**乘法性安全门控**：只有当安全约束被满足时，任务完成和高忠实度才有意义。这确保了"快但不安全"的执行不会获得高分。