Files
myWiki/concepts/hidden-audit-channel.md

2.2 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Hidden Audit Channel 2026-06-05 2026-06-05 concept
agent-safety
audit
evidence
trajectory
liu-auditing-agent-harness-safety

Hidden Audit Channel

隐藏审计通道harnessaudit 框架的核心设计原则之一:所有安全评估证据来自 Agent 不可见、不可操纵、不可预期的独立通道,而非 Agent 自报的最终答案或自我评估。

为什么需要隐藏通道

agent-safety-evaluation 长期存在的根本问题是自报不可信——如果让 Agent 自己报告"我是否安全地完成了任务",存在三类风险:

  1. 诚实错误Agent 不知道自己违规了(如访问了错误但未被标记的资源)
  2. 上下文盲区Agent 的最终输出不记录中间步骤的违规
  3. 对抗性隐瞒:恶意 Agent 可能主动掩盖违规行为

HarnessAudit 的三类隐藏证据

通道 记录内容 Agent 是否可见
工具调用日志 tool_call 名称、参数、返回结果 部分可见(结果对 Agent 可见,但日志聚合 Agent 不可见)
资源访问日志 每次读写+权限决策 不可见
组件间通信日志 发送方/接收方/消息内容 消息内容对接收方可见,但审计聚合不可见

关键机制

  1. 隐藏审计 artifactsSetup 阶段从声明式任务规范中导出完成检查点、策略规则、违规分类——这些在整个执行期间对 Agent 完全隐藏
  2. Post-hoc auditing:所有评分在 Execution 完成后的 Judge 阶段进行——Agent 在运行期间不知道自己在被审计
  3. 确定性匹配 + LLM judgeL1 边界违规用确定性规则access checkerL2/L3 用条件化在隐藏证据上的 LLM judge

与 Agent 可观测性的关系

agent-observability 关注的是系统状态的透明度以支持调试和监控,而隐藏审计通道关注的是安全证据的独立性——二者互补但目的不同。可观测性帮助人类理解发生了什么,隐藏审计通道确保人类(和评估器)能独立验证安全约束是否被遵守。