SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

2.1 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

HarnessAudit

2026-06-05

2026-06-05

concept

framework

agent-safety

trajectory-audit

benchmark

liu-auditing-agent-harness-safety

HarnessAudit

HarnessAudit 是由 Liu et al. (2026) 提出的 Agent 骨架安全审计框架，将 Agent 安全评测从输出级转向完整的轨迹级审计。其核心主张是：Agent Safety 应该评测 Harness 而非 Response。

架构：三阶段流水线

Setup → Execution → Judge

Phase 1: Setup

声明式任务规范实例化可复现的骨架
生成确定性种子的 mock services
导出 hidden audit artifacts（完成检查点、策略规则、违规分类），Agent 全程不可见
Agent 仅通过 API 工具交互，从不接触真实用户数据

Phase 2: Execution

标准的 think → act → observe 循环
不做在线评分——仅记录结构化日志：
- 每次工具调用的参数和结果
- 每次资源访问的权限决策
- 每条组件间消息的内容和接收方
- 执行前后的环境快照

Phase 3: Judge

加载隐藏审计 artifacts
结合三个证据通道重建执行轨迹
按 L1-L3 规范（见 agent-harness-safety）评分

HarnessAudit-Bench

伴随框架发布的基准测试：210 任务 × 8 领域（金融、电商、医疗、法律、软件工程、办公、日常、社交），支持单/多 Agent 配置。

核心设计原则

证据独立：所有评估证据来自 Agent 不可操纵、不可预期的通道
三层联合：boundary-compliance、execution-fidelity、system-stability 必须同时满足
跨框架归一：通过统一的 Action Schema 将不同骨架的原生事件格式标准化为 tool_call / communication 两种审计表面

与相关概念的关系

agent-harness-engineering 定义了骨架的工程视角，HarnessAudit 提供了它的安全审计维度
harness-as-policy 将代码视为策略，HarnessAudit 验证该策略是否被遵守
trajectory-auditing 是 HarnessAudit 的核心方法论