3.3 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Auditing Agent Harness Safety | 2026-06-05 | 2026-06-05 | paper |
|
|
Auditing Agent Harness Safety
Liu et al., arXiv:2605.14271 (May 2026)
核心问题
现代 LLM Agent 运行在 执行骨架(execution harness) 之中——如 OpenClaw、Claude Code、Codex——由骨架决定工具分发、资源分配和组件间消息路由。关键问题是:骨架可以在返回正确、良性的最终答案的同时,在过程中越权访问资源或将上下文泄露给错误的 Agent。仅评测最终输出无法发现这些问题。本文提出将 Agent Safety 的评测对象从"回答"转移到"骨架"本身,并对完整执行轨迹进行审计。
方法论贡献
1. HarnessAudit 框架
将 Agent 骨架形式化为一个 policy-constrained-execution H = (A, T, R, Π, Φ, Σ),并沿三个层次审计完整执行轨迹:
- boundary-compliance:工具调用是否越权?资源访问是否超出范围?信息流是否违反约束?
- execution-fidelity:中间步骤是否有效?任务检查点是否达成?
- system-stability:在间接注入、模糊目标、工具错误等扰动下,L1 和 L2 是否保持?
核心设计:所有证据来自 Agent 不可见、不可操纵的 hidden-audit-channel,而非 Agent 自报。
2. HarnessAudit-Bench
- 210 个任务,覆盖 8 个真实场景(金融、电商、医疗、法律、软件工程、办公、日常、社交)
- 单 Agent 和 多 Agent 两种配置
- 嵌入式安全约束,含真实工具接口和状态动态
3. 实验评估
评测 10 种骨架配置(OpenClaw + 7 模型、Claude Code + 2 模型、Codex + 1 模型)和 3 种多 Agent 框架(Claw-Team, Google ADK, OpenAI Agent SDK)。
关键发现
| 发现 | 描述 |
|---|---|
| 能力与安全失配 | 最强系统总体得分仅 0.32;高任务完成率不保证安全执行 |
| 资源访问是主要违规面 | 多数配置下资源安全远弱于工具安全和信息流安全 |
| 多 Agent 放大风险 | 多 Agent 的 SAR 全面低于单 Agent(tool: 0.64 vs 0.91, resource: 0.63 vs 0.85) |
| 扰动下脆弱 | 间接注入导致最大性能下降;系统稳定性与正常任务完成性能明显分离 |
| 骨架设计决定安全上限 | Claude Code 相较 OpenClaw 同步提升了完成度和安全性;Codex 则在提升完成度的同时降低了安全性 |
相关概念网络
本论文与 agent-harness-engineering密切相关,提出了骨架安全的三层审计框架。trajectory-auditing方法与 agent-safety-evaluation的演进方向一致——从输出评测转向过程审计。multi-agent-safety揭示了 agent 协作中 information-flow-control 和 resource-access-control的系统性缺陷。safety-adherence-rate作为乘法性安全门控的设计,与 harness-as-policy 的约束执行理念对齐。