Files
myWiki/concepts/agent-harness-safety.md

39 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Agent Harness Safety"
created: 2026-06-05
updated: 2026-06-05
type: concept
tags: [agent-safety, harness, trajectory-audit]
sources: [[liu-auditing-agent-harness-safety]]
---
# Agent Harness Safety
**Agent 骨架安全**是将 Agent 安全评测的对象从"模型的最终回答"转移到"执行骨架的完整轨迹"的范式。由 [[liu-auditing-agent-harness-safety|Auditing Agent Harness Safety]] 论文明确提出和系统化。
## 核心主张
> Agent safety should be evaluated on the **harness** rather than the response, and audited over the full **execution trajectory**.
一个 [[execution-harness|执行骨架]] 可以在返回正确、良性的最终答案的同时,在过程中越权访问资源、将私有上下文泄露给错误的 Agent、或触发不可逆的副作用。仅评测最终输出无法发现这些故障模式——这就是"输出级评测"的根本盲区。
## 三层安全审计
HarnessAudit 框架将骨架安全分解为三个联合评估的层次:
| 层次 | 名称 | 审计内容 |
|------|------|---------|
| L1 | [[boundary-compliance|边界合规]] | 工具/资源/信息流是否越界 |
| L2 | [[execution-fidelity|执行忠实度]] | 中间步骤有效性 + 检查点完成 |
| L3 | [[system-stability|系统稳定性]] | 扰动下 L1/L2 是否保持 |
三层必须**同时满足**才能视为安全可部署——每一层对应其他层无法检测的独特故障模式。
## 与现有 Agent Safety 的区别
传统的 [[agent-safety-evaluation|Agent 安全评测]] 主要依赖输出审核output moderation而 HarnessAudit 通过 [[hidden-audit-channel|隐藏审计通道]] 独立记录工具调用、资源访问和组件间通信,实现了与 Agent 自报无关的轨迹级证据链。
## 关键指标
[[safety-adherence-rate|安全遵守率 (SAR)]] 作为**乘法性安全门控**:只有当安全约束被满足时,任务完成和高忠实度才有意义。这确保了"快但不安全"的执行不会获得高分。