53 lines
3.3 KiB
Markdown
53 lines
3.3 KiB
Markdown
---
|
||
title: "Auditing Agent Harness Safety"
|
||
created: 2026-06-05
|
||
updated: 2026-06-05
|
||
type: paper
|
||
tags: [agent-safety, harness, trajectory-audit, multi-agent, benchmark]
|
||
sources: [arxiv:2605.14271]
|
||
---
|
||
|
||
# Auditing Agent Harness Safety
|
||
|
||
> Liu et al., arXiv:2605.14271 (May 2026)
|
||
|
||
## 核心问题
|
||
|
||
现代 LLM Agent 运行在 **执行骨架(execution harness)** 之中——如 OpenClaw、Claude Code、Codex——由骨架决定工具分发、资源分配和组件间消息路由。关键问题是:**骨架可以在返回正确、良性的最终答案的同时,在过程中越权访问资源或将上下文泄露给错误的 Agent**。仅评测最终输出无法发现这些问题。本文提出将 **Agent Safety 的评测对象从"回答"转移到"骨架"本身**,并对**完整执行轨迹**进行审计。
|
||
|
||
## 方法论贡献
|
||
|
||
### 1. HarnessAudit 框架
|
||
|
||
将 Agent 骨架形式化为一个 **[[policy-constrained-execution|策略约束的执行系统]]** H = (A, T, R, Π, Φ, Σ),并沿三个层次审计完整执行轨迹:
|
||
|
||
- **[[boundary-compliance|L1 边界合规]]**:工具调用是否越权?资源访问是否超出范围?信息流是否违反约束?
|
||
- **[[execution-fidelity|L2 执行忠实度]]**:中间步骤是否有效?任务检查点是否达成?
|
||
- **[[system-stability|L3 系统稳定性]]**:在间接注入、模糊目标、工具错误等扰动下,L1 和 L2 是否保持?
|
||
|
||
核心设计:所有证据来自 Agent **不可见、不可操纵**的 [[hidden-audit-channel|隐藏审计通道]],而非 Agent 自报。
|
||
|
||
### 2. HarnessAudit-Bench
|
||
|
||
- 210 个任务,覆盖 8 个真实场景(金融、电商、医疗、法律、软件工程、办公、日常、社交)
|
||
- 单 Agent 和 多 Agent 两种配置
|
||
- 嵌入式安全约束,含真实工具接口和状态动态
|
||
|
||
### 3. 实验评估
|
||
|
||
评测 10 种骨架配置(OpenClaw + 7 模型、Claude Code + 2 模型、Codex + 1 模型)和 3 种多 Agent 框架(Claw-Team, Google ADK, OpenAI Agent SDK)。
|
||
|
||
## 关键发现
|
||
|
||
| 发现 | 描述 |
|
||
|------|------|
|
||
| **能力与安全失配** | 最强系统总体得分仅 0.32;高任务完成率不保证安全执行 |
|
||
| **资源访问是主要违规面** | 多数配置下资源安全远弱于工具安全和信息流安全 |
|
||
| **多 Agent 放大风险** | 多 Agent 的 SAR 全面低于单 Agent(tool: 0.64 vs 0.91, resource: 0.63 vs 0.85)|
|
||
| **扰动下脆弱** | 间接注入导致最大性能下降;系统稳定性与正常任务完成性能明显分离 |
|
||
| **骨架设计决定安全上限** | Claude Code 相较 OpenClaw 同步提升了完成度和安全性;Codex 则在提升完成度的同时降低了安全性 |
|
||
|
||
## 相关概念网络
|
||
|
||
本论文与 [[agent-harness-engineering|Agent 执行骨架工程]]密切相关,提出了骨架安全的**三层审计框架**。[[trajectory-auditing|轨迹级审计]]方法与 [[agent-safety-evaluation|Agent 安全评测]]的演进方向一致——从输出评测转向过程审计。[[multi-agent-safety|多 Agent 安全]]揭示了 agent 协作中 [[information-flow-control|信息流控制]] 和 [[resource-access-control|资源访问控制]]的系统性缺陷。[[safety-adherence-rate|安全遵守率 (SAR)]]作为乘法性安全门控的设计,与 [[harness-as-policy|Harness-as-Policy]] 的约束执行理念对齐。
|