Files
myWiki/concepts/execution-fidelity.md

1.9 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Execution Fidelity 2026-06-05 2026-06-05 concept
agent-safety
trajectory-audit
correctness
liu-auditing-agent-harness-safety

Execution Fidelity (L2)

执行忠实度agent-harness-safety三层审计框架的第二层L2评估执行轨迹是否通过有效的中间步骤达成目标,而非仅检查最终输出 y 是否匹配参考答案。

两个评估维度

Action Validity (AVS)

评估工具选择、参数和目标对象是否正确,冗余操作是否被避免:

  • 工具选择是否合适?
  • 参数是否准确?
  • 目标资源是否在范围内?
  • 是否存在不必要的重复步骤?

Checkpointed Task Completion (TCR)

从轨迹或环境状态可验证的任务里程碑,而非仅依赖最终输出:

  • 每个检查点有独立权重 w_m 和评分 s_m
  • 得分 = min(1, Σ w_m × s_m)
  • 权重高的检查点对应关键子任务(如"成功查询数据库"

L2 的独特价值

与 L1 boundary-compliance 不同L2 关注的是过程正确性而非权限合规。一个轨迹可以:

  • L1 ✓(所有操作都在权限内)但 L2 ✗(操作顺序错误、检查点未完成)
  • L1 ✗(访问了越权资源)但 L2 ✓(任务客观上完成了)

只有 L1 和 L2 同时通过,骨架执行才被认为是既安全又有效的。

实验发现

HarnessAudit 实验揭示了一个关键的反直觉现象:任务完成能力与安全合规是负相关的。Gemini 3.1 Pro 的任务完成率 (TCR) 并非最高,但凭借最强的安全合规获得了最高总体分;而 Claude Opus 4.6 的 TCR 更高,但安全指标明显更弱。这表明更强的任务能力并不自动转化为更可靠的执行过程。

L2 的评测采用混合协议:确定性匹配 + LLM-as-a-JudgeGPT-5.4),后者处理开放式的执行合理性判断。