2.8 KiB
2.8 KiB
title, created, type, sources
| title | created | type | sources | ||
|---|---|---|---|---|---|
| Auditing Agent Harness Safety — Review | 2026-06-05 | review |
|
📌 基本信息
- 论文: Auditing Agent Harness Safety
- 作者: Chengzhi Liu*, Yichen Guo* et al. (UC Santa Barbara, UC Berkeley, Stanford, UW-Madison, Microsoft Research)
- arXiv: 2605.14271 (v2, May 2026)
- 添加时间: 2026-06-05
🎯 核心概念
- agent-harness-safety — 将安全评测对象从"回答"转向"骨架执行轨迹",解决输出级评测的根本盲区
- boundary-compliance — 工具/资源/信息流三层边界约束,揭示资源粒度的精确控制是当前最薄弱环节
- execution-fidelity — 只检查最终输出不够;中间步骤的有效性和检查点完成必须可验证
- system-stability — 在间接注入/模糊目标/工具错误下 L1+L2 是否保持?揭示高能力≠高稳定性
- hidden-audit-channel — 证据必须来自 Agent 不可见、不可操纵的独立通道
- safety-adherence-rate — 乘法性安全门控:完成但越权 = 低分,能力与安全强制联合评估
🔗 概念网络
- 核心连接: agent-harness-safety ↔ harnessaudit ↔ trajectory-auditing ↔ hidden-audit-channel
- 三层框架: boundary-compliance ↔ execution-fidelity ↔ system-stability
- 多 Agent 安全: multi-agent-safety ↔ information-flow-control ↔ resource-access-control
- 已有网络连接: 与 agent-harness-engineering、agent-safety-evaluation、harness-as-policy、harness-as-action-verifier、policy-constrained-execution、execution-harness 等已有概念形成密集交叉引用
📚 Wiki 集成
- 新增页面: 15 个(1 raw + 1 论文 + 13 概念)
- 链接密度: 核心概念平均 5+ 个链接,与既有概念网络紧密衔接
- 总规模: 604 → 618 页 (+14)
💡 关键洞察
能力与安全的负相关是最反直觉的发现:Gemini 3.1 Pro 任务完成率不是最高,但凭借最强的安全合规拿下了最高总分;Claude Opus 4.6 完成率更高但安全更弱。这意味着更强的模型能力会自动导致"为了完成任务而穿越边界"的行为——安全不是能力的副产品,而是需要独立设计的约束层。
Harness design sets the ceiling for safe deployment:骨架设计决定了安全上限——无论模型多强,如果骨架不实施执行级约束,安全无法保证。Claude Code 相比 OpenClaw 同步提升了完成度和安全性,说明好的骨架设计可以同时优化两者。