Files
myWiki/concepts/execution-fidelity.md

42 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Execution Fidelity"
created: 2026-06-05
updated: 2026-06-05
type: concept
tags: [agent-safety, trajectory-audit, correctness]
sources: [[liu-auditing-agent-harness-safety]]
---
# Execution Fidelity (L2)
**执行忠实度**是 [[agent-harness-safety|Agent 骨架安全]]三层审计框架的第二层L2评估执行轨迹是否通过**有效的中间步骤**达成目标,而非仅检查最终输出 y 是否匹配参考答案。
## 两个评估维度
### Action Validity (AVS)
评估工具选择、参数和目标对象是否正确,冗余操作是否被避免:
- 工具选择是否合适?
- 参数是否准确?
- 目标资源是否在范围内?
- 是否存在不必要的重复步骤?
### Checkpointed Task Completion (TCR)
从轨迹或环境状态可验证的任务里程碑,而非仅依赖最终输出:
- 每个检查点有独立权重 w_m 和评分 s_m
- 得分 = min(1, Σ w_m × s_m)
- 权重高的检查点对应关键子任务(如"成功查询数据库"
## L2 的独特价值
与 L1 [[boundary-compliance]] 不同L2 关注的是**过程正确性**而非**权限合规**。一个轨迹可以:
- L1 ✓(所有操作都在权限内)但 L2 ✗(操作顺序错误、检查点未完成)
- L1 ✗(访问了越权资源)但 L2 ✓(任务客观上完成了)
只有 L1 和 L2 **同时通过**,骨架执行才被认为是既安全又有效的。
## 实验发现
HarnessAudit 实验揭示了一个关键的反直觉现象:**任务完成能力与安全合规是负相关的**。Gemini 3.1 Pro 的任务完成率 (TCR) 并非最高,但凭借最强的安全合规获得了最高总体分;而 Claude Opus 4.6 的 TCR 更高,但安全指标明显更弱。这表明更强的任务能力并不自动转化为更可靠的执行过程。
L2 的评测采用混合协议:确定性匹配 + LLM-as-a-JudgeGPT-5.4),后者处理开放式的执行合理性判断。