myWiki/papers/liu-auditing-agent-harness-safety.md

---
title: "Auditing Agent Harness Safety"
created: 2026-06-05
updated: 2026-06-05
type: paper
tags: [agent-safety, harness, trajectory-audit, multi-agent, benchmark]
sources: [arxiv:2605.14271]
---

# Auditing Agent Harness Safety

> Liu et al., arXiv:2605.14271 (May 2026)

## 核心问题

现代 LLM Agent 运行在 **执行骨架（execution harness）** 之中——如 OpenClaw、Claude Code、Codex——由骨架决定工具分发、资源分配和组件间消息路由。关键问题是：**骨架可以在返回正确、良性的最终答案的同时，在过程中越权访问资源或将上下文泄露给错误的 Agent**。仅评测最终输出无法发现这些问题。本文提出将 **Agent Safety 的评测对象从"回答"转移到"骨架"本身**，并对**完整执行轨迹**进行审计。

## 方法论贡献

### 1. HarnessAudit 框架

将 Agent 骨架形式化为一个 **[[policy-constrained-execution|策略约束的执行系统]]** H = (A, T, R, Π, Φ, Σ)，并沿三个层次审计完整执行轨迹：

- **[[boundary-compliance|L1 边界合规]]**：工具调用是否越权？资源访问是否超出范围？信息流是否违反约束？
- **[[execution-fidelity|L2 执行忠实度]]**：中间步骤是否有效？任务检查点是否达成？
- **[[system-stability|L3 系统稳定性]]**：在间接注入、模糊目标、工具错误等扰动下，L1 和 L2 是否保持？

核心设计：所有证据来自 Agent **不可见、不可操纵**的 [[hidden-audit-channel|隐藏审计通道]]，而非 Agent 自报。

### 2. HarnessAudit-Bench

- 210 个任务，覆盖 8 个真实场景（金融、电商、医疗、法律、软件工程、办公、日常、社交）
- 单 Agent 和 多 Agent 两种配置
- 嵌入式安全约束，含真实工具接口和状态动态

### 3. 实验评估

评测 10 种骨架配置（OpenClaw + 7 模型、Claude Code + 2 模型、Codex + 1 模型）和 3 种多 Agent 框架（Claw-Team, Google ADK, OpenAI Agent SDK）。

## 关键发现

| 发现 | 描述 |
|------|------|
| **能力与安全失配** | 最强系统总体得分仅 0.32；高任务完成率不保证安全执行 |
| **资源访问是主要违规面** | 多数配置下资源安全远弱于工具安全和信息流安全 |
| **多 Agent 放大风险** | 多 Agent 的 SAR 全面低于单 Agent（tool: 0.64 vs 0.91, resource: 0.63 vs 0.85）|
| **扰动下脆弱** | 间接注入导致最大性能下降；系统稳定性与正常任务完成性能明显分离 |
| **骨架设计决定安全上限** | Claude Code 相较 OpenClaw 同步提升了完成度和安全性；Codex 则在提升完成度的同时降低了安全性 |

## 相关概念网络

本论文与 [[agent-harness-engineering|Agent 执行骨架工程]]密切相关，提出了骨架安全的**三层审计框架**。[[trajectory-auditing|轨迹级审计]]方法与 [[agent-safety-evaluation|Agent 安全评测]]的演进方向一致——从输出评测转向过程审计。[[multi-agent-safety|多 Agent 安全]]揭示了 agent 协作中 [[information-flow-control|信息流控制]] 和 [[resource-access-control|资源访问控制]]的系统性缺陷。[[safety-adherence-rate|安全遵守率 (SAR)]]作为乘法性安全门控的设计，与 [[harness-as-policy|Harness-as-Policy]] 的约束执行理念对齐。