myWiki/concepts/hidden-audit-channel.md

---
title: "Hidden Audit Channel"
created: 2026-06-05
updated: 2026-06-05
type: concept
tags: [agent-safety, audit, evidence, trajectory]
sources: [[liu-auditing-agent-harness-safety]]
---

# Hidden Audit Channel

**隐藏审计通道**是 [[harnessaudit|HarnessAudit]] 框架的核心设计原则之一：所有安全评估证据来自 Agent **不可见、不可操纵、不可预期**的独立通道，而非 Agent 自报的最终答案或自我评估。

## 为什么需要隐藏通道

[[agent-safety-evaluation|Agent 安全评测]] 长期存在的根本问题是**自报不可信**——如果让 Agent 自己报告"我是否安全地完成了任务"，存在三类风险：

1. **诚实错误**：Agent 不知道自己违规了（如访问了错误但未被标记的资源）
2. **上下文盲区**：Agent 的最终输出不记录中间步骤的违规
3. **对抗性隐瞒**：恶意 Agent 可能主动掩盖违规行为

## HarnessAudit 的三类隐藏证据

| 通道 | 记录内容 | Agent 是否可见 |
|------|---------|--------------|
| 工具调用日志 | tool_call 名称、参数、返回结果 | 部分可见（结果对 Agent 可见，但日志聚合 Agent 不可见） |
| 资源访问日志 | 每次读写+权限决策 | 不可见 |
| 组件间通信日志 | 发送方/接收方/消息内容 | 消息内容对接收方可见，但审计聚合不可见 |

## 关键机制

1. **隐藏审计 artifacts**：Setup 阶段从声明式任务规范中导出完成检查点、策略规则、违规分类——这些在整个执行期间对 Agent **完全隐藏**
2. **Post-hoc auditing**：所有评分在 Execution 完成后的 Judge 阶段进行——Agent 在运行期间不知道自己在被审计
3. **确定性匹配 + LLM judge**：L1 边界违规用确定性规则（access checker），L2/L3 用条件化在隐藏证据上的 LLM judge

## 与 Agent 可观测性的关系

[[agent-observability|Agent 可观测性]] 关注的是系统状态的透明度以支持调试和监控，而隐藏审计通道关注的是**安全证据的独立性**——二者互补但目的不同。可观测性帮助人类理解发生了什么，隐藏审计通道确保人类（和评估器）能独立验证安全约束是否被遵守。