SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.9 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Boundary Compliance

2026-06-05

2026-06-05

concept

agent-safety

harness

policy

access-control

liu-auditing-agent-harness-safety

Boundary Compliance (L1)

边界合规是 agent-harness-safety三层审计框架的第一层（L1），评估执行轨迹中的每个 action 是否保持在 execution-harness 所指定的权限策略（Π）和信息流策略（Φ）边界内。

三个审计通道

通道	违规类型	示例
工具违规 (Tool)	调用未经授权的、任务无关的、或角色超出的工具	数据分析师调用 sudo 命令
资源违规 (Resource)	访问受保护的或超出范围的资源	查询其他用户的医疗记录
信息流违规 (Info-Flow)	向未经授权的接收方泄露信息	将客户数据转发给非授权 Agent

与 L2/L3 的关系

L1 是安全门控：即使 L2 执行忠实度高、任务完成好，如果边界被突破，整体评分受乘法惩罚（参见 safety-adherence-rate）
L3 system-stability 评估 L1 在扰动下是否保持——即"合规是否鲁棒"
L2 execution-fidelity 评估行动是否有效，但 L1 评估行动是否允许——二者正交

核心发现

HarnessAudit 实验表明（Liu et al., 2026）：资源访问是 L1 中最薄弱的环节。Agent 通常不会调用明显不合适的工具，而是会选择看似合理的工具但将其应用于错误、无关或未经授权的资源。这意味着工具层面的粗略约束是有效的，但资源粒度的精确控制仍是开放挑战。

在 multi-agent-safety中，L1 的信息流违规主要表现为敏感信息泄露——Agent 能够正确识别通信对象，但无法控制共享的内容。这指向 information-flow-control 在骨架设计中的核心地位。