--- title: "Auditing Agent Harness Safety" created: 2026-06-05 updated: 2026-06-05 type: paper tags: [agent-safety, harness, trajectory-audit, multi-agent, benchmark] sources: [arxiv:2605.14271] --- # Auditing Agent Harness Safety > Liu et al., arXiv:2605.14271 (May 2026) ## 核心问题 现代 LLM Agent 运行在 **执行骨架(execution harness)** 之中——如 OpenClaw、Claude Code、Codex——由骨架决定工具分发、资源分配和组件间消息路由。关键问题是:**骨架可以在返回正确、良性的最终答案的同时,在过程中越权访问资源或将上下文泄露给错误的 Agent**。仅评测最终输出无法发现这些问题。本文提出将 **Agent Safety 的评测对象从"回答"转移到"骨架"本身**,并对**完整执行轨迹**进行审计。 ## 方法论贡献 ### 1. HarnessAudit 框架 将 Agent 骨架形式化为一个 **[[policy-constrained-execution|策略约束的执行系统]]** H = (A, T, R, Π, Φ, Σ),并沿三个层次审计完整执行轨迹: - **[[boundary-compliance|L1 边界合规]]**:工具调用是否越权?资源访问是否超出范围?信息流是否违反约束? - **[[execution-fidelity|L2 执行忠实度]]**:中间步骤是否有效?任务检查点是否达成? - **[[system-stability|L3 系统稳定性]]**:在间接注入、模糊目标、工具错误等扰动下,L1 和 L2 是否保持? 核心设计:所有证据来自 Agent **不可见、不可操纵**的 [[hidden-audit-channel|隐藏审计通道]],而非 Agent 自报。 ### 2. HarnessAudit-Bench - 210 个任务,覆盖 8 个真实场景(金融、电商、医疗、法律、软件工程、办公、日常、社交) - 单 Agent 和 多 Agent 两种配置 - 嵌入式安全约束,含真实工具接口和状态动态 ### 3. 实验评估 评测 10 种骨架配置(OpenClaw + 7 模型、Claude Code + 2 模型、Codex + 1 模型)和 3 种多 Agent 框架(Claw-Team, Google ADK, OpenAI Agent SDK)。 ## 关键发现 | 发现 | 描述 | |------|------| | **能力与安全失配** | 最强系统总体得分仅 0.32;高任务完成率不保证安全执行 | | **资源访问是主要违规面** | 多数配置下资源安全远弱于工具安全和信息流安全 | | **多 Agent 放大风险** | 多 Agent 的 SAR 全面低于单 Agent(tool: 0.64 vs 0.91, resource: 0.63 vs 0.85)| | **扰动下脆弱** | 间接注入导致最大性能下降;系统稳定性与正常任务完成性能明显分离 | | **骨架设计决定安全上限** | Claude Code 相较 OpenClaw 同步提升了完成度和安全性;Codex 则在提升完成度的同时降低了安全性 | ## 相关概念网络 本论文与 [[agent-harness-engineering|Agent 执行骨架工程]]密切相关,提出了骨架安全的**三层审计框架**。[[trajectory-auditing|轨迹级审计]]方法与 [[agent-safety-evaluation|Agent 安全评测]]的演进方向一致——从输出评测转向过程审计。[[multi-agent-safety|多 Agent 安全]]揭示了 agent 协作中 [[information-flow-control|信息流控制]] 和 [[resource-access-control|资源访问控制]]的系统性缺陷。[[safety-adherence-rate|安全遵守率 (SAR)]]作为乘法性安全门控的设计,与 [[harness-as-policy|Harness-as-Policy]] 的约束执行理念对齐。