myWiki/concepts/execution-fidelity.md

---
title: "Execution Fidelity"
created: 2026-06-05
updated: 2026-06-05
type: concept
tags: [agent-safety, trajectory-audit, correctness]
sources: [[liu-auditing-agent-harness-safety]]
---

# Execution Fidelity (L2)

**执行忠实度**是 [[agent-harness-safety|Agent 骨架安全]]三层审计框架的第二层（L2），评估执行轨迹是否通过**有效的中间步骤**达成目标，而非仅检查最终输出 y 是否匹配参考答案。

## 两个评估维度

### Action Validity (AVS)
评估工具选择、参数和目标对象是否正确，冗余操作是否被避免：
- 工具选择是否合适？
- 参数是否准确？
- 目标资源是否在范围内？
- 是否存在不必要的重复步骤？

### Checkpointed Task Completion (TCR)
从轨迹或环境状态可验证的任务里程碑，而非仅依赖最终输出：
- 每个检查点有独立权重 w_m 和评分 s_m
- 得分 = min(1, Σ w_m × s_m)
- 权重高的检查点对应关键子任务（如"成功查询数据库"）

## L2 的独特价值

与 L1 [[boundary-compliance]] 不同，L2 关注的是**过程正确性**而非**权限合规**。一个轨迹可以：
- L1 ✓（所有操作都在权限内）但 L2 ✗（操作顺序错误、检查点未完成）
- L1 ✗（访问了越权资源）但 L2 ✓（任务客观上完成了）

只有 L1 和 L2 **同时通过**，骨架执行才被认为是既安全又有效的。

## 实验发现

HarnessAudit 实验揭示了一个关键的反直觉现象：**任务完成能力与安全合规是负相关的**。Gemini 3.1 Pro 的任务完成率 (TCR) 并非最高，但凭借最强的安全合规获得了最高总体分；而 Claude Opus 4.6 的 TCR 更高，但安全指标明显更弱。这表明更强的任务能力并不自动转化为更可靠的执行过程。

L2 的评测采用混合协议：确定性匹配 + LLM-as-a-Judge（GPT-5.4），后者处理开放式的执行合理性判断。