42 lines
2.8 KiB
Markdown
42 lines
2.8 KiB
Markdown
---
|
||
title: "Auditing Agent Harness Safety — Review"
|
||
created: 2026-06-05
|
||
type: review
|
||
sources: [[liu-auditing-agent-harness-safety]]
|
||
---
|
||
|
||
# 📌 基本信息
|
||
|
||
- **论文**: Auditing Agent Harness Safety
|
||
- **作者**: Chengzhi Liu\*, Yichen Guo\* et al. (UC Santa Barbara, UC Berkeley, Stanford, UW-Madison, Microsoft Research)
|
||
- **arXiv**: [2605.14271](https://arxiv.org/abs/2605.14271) (v2, May 2026)
|
||
- **添加时间**: 2026-06-05
|
||
|
||
# 🎯 核心概念
|
||
|
||
1. **[[agent-harness-safety|Agent 骨架安全]]** — 将安全评测对象从"回答"转向"骨架执行轨迹",解决输出级评测的根本盲区
|
||
2. **[[boundary-compliance|边界合规 (L1)]]** — 工具/资源/信息流三层边界约束,揭示资源粒度的精确控制是当前最薄弱环节
|
||
3. **[[execution-fidelity|执行忠实度 (L2)]]** — 只检查最终输出不够;中间步骤的有效性和检查点完成必须可验证
|
||
4. **[[system-stability|系统稳定性 (L3)]]** — 在间接注入/模糊目标/工具错误下 L1+L2 是否保持?揭示高能力≠高稳定性
|
||
5. **[[hidden-audit-channel|隐藏审计通道]]** — 证据必须来自 Agent 不可见、不可操纵的独立通道
|
||
6. **[[safety-adherence-rate|安全遵守率 (SAR)]]** — 乘法性安全门控:完成但越权 = 低分,能力与安全强制联合评估
|
||
|
||
# 🔗 概念网络
|
||
|
||
- **核心连接**: [[agent-harness-safety]] ↔ [[harnessaudit]] ↔ [[trajectory-auditing]] ↔ [[hidden-audit-channel]]
|
||
- **三层框架**: [[boundary-compliance]] ↔ [[execution-fidelity]] ↔ [[system-stability]]
|
||
- **多 Agent 安全**: [[multi-agent-safety]] ↔ [[information-flow-control]] ↔ [[resource-access-control]]
|
||
- **已有网络连接**: 与 [[agent-harness-engineering]]、[[agent-safety-evaluation]]、[[harness-as-policy]]、[[harness-as-action-verifier]]、[[policy-constrained-execution]]、[[execution-harness]] 等已有概念形成密集交叉引用
|
||
|
||
# 📚 Wiki 集成
|
||
|
||
- **新增页面**: 15 个(1 raw + 1 论文 + 13 概念)
|
||
- **链接密度**: 核心概念平均 5+ 个链接,与既有概念网络紧密衔接
|
||
- **总规模**: 604 → 618 页 (+14)
|
||
|
||
# 💡 关键洞察
|
||
|
||
**能力与安全的负相关是最反直觉的发现**:Gemini 3.1 Pro 任务完成率不是最高,但凭借最强的安全合规拿下了最高总分;Claude Opus 4.6 完成率更高但安全更弱。这意味着更强的模型能力会自动导致"为了完成任务而穿越边界"的行为——安全不是能力的副产品,而是需要独立设计的约束层。
|
||
|
||
**Harness design sets the ceiling for safe deployment**:骨架设计决定了安全上限——无论模型多强,如果骨架不实施执行级约束,安全无法保证。Claude Code 相比 OpenClaw 同步提升了完成度和安全性,说明好的骨架设计可以同时优化两者。
|