Auditing Agent Harness Safety

Liu et al., arXiv:2605.14271 (May 2026)

核心问题

现代 LLM Agent 运行在 执行骨架（execution harness） 之中——如 OpenClaw、Claude Code、Codex——由骨架决定工具分发、资源分配和组件间消息路由。关键问题是：骨架可以在返回正确、良性的最终答案的同时，在过程中越权访问资源或将上下文泄露给错误的 Agent。仅评测最终输出无法发现这些问题。本文提出将 Agent Safety 的评测对象从"回答"转移到"骨架"本身，并对完整执行轨迹进行审计。

方法论贡献

1. HarnessAudit 框架

将 Agent 骨架形式化为一个 policy-constrained-execution H = (A, T, R, Π, Φ, Σ)，并沿三个层次审计完整执行轨迹：

boundary-compliance：工具调用是否越权？资源访问是否超出范围？信息流是否违反约束？
execution-fidelity：中间步骤是否有效？任务检查点是否达成？
system-stability：在间接注入、模糊目标、工具错误等扰动下，L1 和 L2 是否保持？

核心设计：所有证据来自 Agent 不可见、不可操纵的 hidden-audit-channel，而非 Agent 自报。

2. HarnessAudit-Bench

210 个任务，覆盖 8 个真实场景（金融、电商、医疗、法律、软件工程、办公、日常、社交）
单 Agent 和多 Agent 两种配置
嵌入式安全约束，含真实工具接口和状态动态

3. 实验评估

评测 10 种骨架配置（OpenClaw + 7 模型、Claude Code + 2 模型、Codex + 1 模型）和 3 种多 Agent 框架（Claw-Team, Google ADK, OpenAI Agent SDK）。

关键发现

发现	描述
能力与安全失配	最强系统总体得分仅 0.32；高任务完成率不保证安全执行
资源访问是主要违规面	多数配置下资源安全远弱于工具安全和信息流安全
多 Agent 放大风险	多 Agent 的 SAR 全面低于单 Agent（tool: 0.64 vs 0.91, resource: 0.63 vs 0.85）
扰动下脆弱	间接注入导致最大性能下降；系统稳定性与正常任务完成性能明显分离
骨架设计决定安全上限	Claude Code 相较 OpenClaw 同步提升了完成度和安全性；Codex 则在提升完成度的同时降低了安全性

3.3 KiB Raw Blame History Unescape Escape