Files
myWiki/concepts/boundary-compliance.md

33 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Boundary Compliance"
created: 2026-06-05
updated: 2026-06-05
type: concept
tags: [agent-safety, harness, policy, access-control]
sources: [[liu-auditing-agent-harness-safety]]
---
# Boundary Compliance (L1)
**边界合规**是 [[agent-harness-safety|Agent 骨架安全]]三层审计框架的第一层L1评估执行轨迹中的每个 action 是否保持在 [[execution-harness|骨架]] 所指定的权限策略(Π)和信息流策略(Φ)边界内。
## 三个审计通道
| 通道 | 违规类型 | 示例 |
|------|---------|------|
| **工具违规** (Tool) | 调用未经授权的、任务无关的、或角色超出的工具 | 数据分析师调用 sudo 命令 |
| **资源违规** (Resource) | 访问受保护的或超出范围的资源 | 查询其他用户的医疗记录 |
| **信息流违规** (Info-Flow) | 向未经授权的接收方泄露信息 | 将客户数据转发给非授权 Agent |
## 与 L2/L3 的关系
- L1 是**安全门控**:即使 L2 执行忠实度高、任务完成好,如果边界被突破,整体评分受乘法惩罚(参见 [[safety-adherence-rate|SAR]]
- L3 [[system-stability]] 评估 L1 在扰动下是否保持——即"合规是否鲁棒"
- L2 [[execution-fidelity]] 评估行动是否有效,但 L1 评估行动是否允许——二者正交
## 核心发现
HarnessAudit 实验表明Liu et al., 2026**资源访问是 L1 中最薄弱的环节**。Agent 通常不会调用明显不合适的工具,而是会选择看似合理的工具但将其应用于错误、无关或未经授权的资源。这意味着工具层面的粗略约束是有效的,但**资源粒度的精确控制**仍是开放挑战。
在 [[multi-agent-safety|多 Agent 场景]]中L1 的信息流违规主要表现为**敏感信息泄露**——Agent 能够正确识别通信对象,但无法控制共享的内容。这指向 [[information-flow-control|信息流控制]] 在骨架设计中的核心地位。