Files
myWiki/reviews/auditing-agent-harness-safety-review-20260605.md

42 lines
2.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Auditing Agent Harness Safety — Review"
created: 2026-06-05
type: review
sources: [[liu-auditing-agent-harness-safety]]
---
# 📌 基本信息
- **论文**: Auditing Agent Harness Safety
- **作者**: Chengzhi Liu\*, Yichen Guo\* et al. (UC Santa Barbara, UC Berkeley, Stanford, UW-Madison, Microsoft Research)
- **arXiv**: [2605.14271](https://arxiv.org/abs/2605.14271) (v2, May 2026)
- **添加时间**: 2026-06-05
# 🎯 核心概念
1. **[[agent-harness-safety|Agent 骨架安全]]** — 将安全评测对象从"回答"转向"骨架执行轨迹",解决输出级评测的根本盲区
2. **[[boundary-compliance|边界合规 (L1)]]** — 工具/资源/信息流三层边界约束,揭示资源粒度的精确控制是当前最薄弱环节
3. **[[execution-fidelity|执行忠实度 (L2)]]** — 只检查最终输出不够;中间步骤的有效性和检查点完成必须可验证
4. **[[system-stability|系统稳定性 (L3)]]** — 在间接注入/模糊目标/工具错误下 L1+L2 是否保持?揭示高能力≠高稳定性
5. **[[hidden-audit-channel|隐藏审计通道]]** — 证据必须来自 Agent 不可见、不可操纵的独立通道
6. **[[safety-adherence-rate|安全遵守率 (SAR)]]** — 乘法性安全门控:完成但越权 = 低分,能力与安全强制联合评估
# 🔗 概念网络
- **核心连接**: [[agent-harness-safety]] ↔ [[harnessaudit]] ↔ [[trajectory-auditing]] ↔ [[hidden-audit-channel]]
- **三层框架**: [[boundary-compliance]] ↔ [[execution-fidelity]] ↔ [[system-stability]]
- **多 Agent 安全**: [[multi-agent-safety]] ↔ [[information-flow-control]] ↔ [[resource-access-control]]
- **已有网络连接**: 与 [[agent-harness-engineering]]、[[agent-safety-evaluation]]、[[harness-as-policy]]、[[harness-as-action-verifier]]、[[policy-constrained-execution]]、[[execution-harness]] 等已有概念形成密集交叉引用
# 📚 Wiki 集成
- **新增页面**: 15 个1 raw + 1 论文 + 13 概念)
- **链接密度**: 核心概念平均 5+ 个链接,与既有概念网络紧密衔接
- **总规模**: 604 → 618 页 (+14)
# 💡 关键洞察
**能力与安全的负相关是最反直觉的发现**Gemini 3.1 Pro 任务完成率不是最高但凭借最强的安全合规拿下了最高总分Claude Opus 4.6 完成率更高但安全更弱。这意味着更强的模型能力会自动导致"为了完成任务而穿越边界"的行为——安全不是能力的副产品,而是需要独立设计的约束层。
**Harness design sets the ceiling for safe deployment**骨架设计决定了安全上限——无论模型多强如果骨架不实施执行级约束安全无法保证。Claude Code 相比 OpenClaw 同步提升了完成度和安全性,说明好的骨架设计可以同时优化两者。