SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

1.3 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

Agent Process Evaluation（过程评测）

2026-05-23

2026-05-23

concept

agent

evaluation

process

trace

raw/articles/claw-eval-2026.md

high

Agent Process Evaluation（过程评测）

不只评判 Agent 的最终输出，更审查其完整的执行过程——中间步骤是否合理、工具调用是否正确、约束是否遵守。

为什么只看最终答案不够

Agent 可能给出看似合理的结果，却在执行中遗漏关键步骤
Claw-Eval 实验：普通 LLM Judge 即使看到完整对话记录，仍漏掉 44% 安全违规和13% 鲁棒性问题
需要结合服务端日志和环境快照才能捕捉违规

过程评测的关键要素

工具调用审计：每一步工具调用是否符合预期
约束遵循：行为是否遵守安全边界和任务约束
错误恢复：异常发生后是否尝试恢复
轨迹完整性：Setup → Execution → Judge 全生命周期记录

与 Trace-Native Evaluation 的关系

过程评测是 trace-native-evaluation 的具体实践——将 Agent 的完整执行踪迹而非最终分数作为主要评估对象。

相关概念