Files
myWiki/papers/liu-auditing-agent-harness-safety.md

53 lines
3.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Auditing Agent Harness Safety"
created: 2026-06-05
updated: 2026-06-05
type: paper
tags: [agent-safety, harness, trajectory-audit, multi-agent, benchmark]
sources: [arxiv:2605.14271]
---
# Auditing Agent Harness Safety
> Liu et al., arXiv:2605.14271 (May 2026)
## 核心问题
现代 LLM Agent 运行在 **执行骨架execution harness** 之中——如 OpenClaw、Claude Code、Codex——由骨架决定工具分发、资源分配和组件间消息路由。关键问题是**骨架可以在返回正确、良性的最终答案的同时,在过程中越权访问资源或将上下文泄露给错误的 Agent**。仅评测最终输出无法发现这些问题。本文提出将 **Agent Safety 的评测对象从"回答"转移到"骨架"本身**,并对**完整执行轨迹**进行审计。
## 方法论贡献
### 1. HarnessAudit 框架
将 Agent 骨架形式化为一个 **[[policy-constrained-execution|策略约束的执行系统]]** H = (A, T, R, Π, Φ, Σ),并沿三个层次审计完整执行轨迹:
- **[[boundary-compliance|L1 边界合规]]**:工具调用是否越权?资源访问是否超出范围?信息流是否违反约束?
- **[[execution-fidelity|L2 执行忠实度]]**:中间步骤是否有效?任务检查点是否达成?
- **[[system-stability|L3 系统稳定性]]**在间接注入、模糊目标、工具错误等扰动下L1 和 L2 是否保持?
核心设计:所有证据来自 Agent **不可见、不可操纵**的 [[hidden-audit-channel|隐藏审计通道]],而非 Agent 自报。
### 2. HarnessAudit-Bench
- 210 个任务,覆盖 8 个真实场景(金融、电商、医疗、法律、软件工程、办公、日常、社交)
- 单 Agent 和 多 Agent 两种配置
- 嵌入式安全约束,含真实工具接口和状态动态
### 3. 实验评估
评测 10 种骨架配置OpenClaw + 7 模型、Claude Code + 2 模型、Codex + 1 模型)和 3 种多 Agent 框架Claw-Team, Google ADK, OpenAI Agent SDK
## 关键发现
| 发现 | 描述 |
|------|------|
| **能力与安全失配** | 最强系统总体得分仅 0.32;高任务完成率不保证安全执行 |
| **资源访问是主要违规面** | 多数配置下资源安全远弱于工具安全和信息流安全 |
| **多 Agent 放大风险** | 多 Agent 的 SAR 全面低于单 Agenttool: 0.64 vs 0.91, resource: 0.63 vs 0.85|
| **扰动下脆弱** | 间接注入导致最大性能下降;系统稳定性与正常任务完成性能明显分离 |
| **骨架设计决定安全上限** | Claude Code 相较 OpenClaw 同步提升了完成度和安全性Codex 则在提升完成度的同时降低了安全性 |
## 相关概念网络
本论文与 [[agent-harness-engineering|Agent 执行骨架工程]]密切相关,提出了骨架安全的**三层审计框架**。[[trajectory-auditing|轨迹级审计]]方法与 [[agent-safety-evaluation|Agent 安全评测]]的演进方向一致——从输出评测转向过程审计。[[multi-agent-safety|多 Agent 安全]]揭示了 agent 协作中 [[information-flow-control|信息流控制]] 和 [[resource-access-control|资源访问控制]]的系统性缺陷。[[safety-adherence-rate|安全遵守率 (SAR)]]作为乘法性安全门控的设计,与 [[harness-as-policy|Harness-as-Policy]] 的约束执行理念对齐。