--- title: "Agent Process Evaluation(过程评测)" created: 2026-05-23 updated: 2026-05-23 type: concept tags: [agent, evaluation, process, trace] sources: [raw/articles/claw-eval-2026.md] confidence: high --- # Agent Process Evaluation(过程评测) > 不只评判 Agent 的最终输出,更审查其完整的执行过程——中间步骤是否合理、工具调用是否正确、约束是否遵守。 ## 为什么只看最终答案不够 - Agent 可能给出看似合理的结果,却在执行中遗漏关键步骤 - Claw-Eval 实验:普通 LLM Judge 即使看到完整对话记录,仍**漏掉 44% 安全违规**和**13% 鲁棒性问题** - 需要结合**服务端日志**和**环境快照**才能捕捉违规 ## 过程评测的关键要素 - **工具调用审计**:每一步工具调用是否符合预期 - **约束遵循**:行为是否遵守安全边界和任务约束 - **错误恢复**:异常发生后是否尝试恢复 - **轨迹完整性**:Setup → Execution → Judge 全生命周期记录 ## 与 Trace-Native Evaluation 的关系 过程评测是 [[trace-native-evaluation]] 的具体实践——将 Agent 的完整执行踪迹而非最终分数作为主要评估对象。 ## 相关概念 - [[agent-evaluation-paradigm-shift]] - [[agent-safety-evaluation]] - [[agent-robustness-evaluation]] - [[claw-eval]]