Files
myWiki/concepts/agent-process-evaluation.md
2026-06-01 10:46:01 +08:00

1.3 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
Agent Process Evaluation过程评测 2026-05-23 2026-05-23 concept
agent
evaluation
process
trace
raw/articles/claw-eval-2026.md
high

Agent Process Evaluation过程评测

不只评判 Agent 的最终输出,更审查其完整的执行过程——中间步骤是否合理、工具调用是否正确、约束是否遵守。

为什么只看最终答案不够

  • Agent 可能给出看似合理的结果,却在执行中遗漏关键步骤
  • Claw-Eval 实验:普通 LLM Judge 即使看到完整对话记录,仍漏掉 44% 安全违规13% 鲁棒性问题
  • 需要结合服务端日志环境快照才能捕捉违规

过程评测的关键要素

  • 工具调用审计:每一步工具调用是否符合预期
  • 约束遵循:行为是否遵守安全边界和任务约束
  • 错误恢复:异常发生后是否尝试恢复
  • 轨迹完整性Setup → Execution → Judge 全生命周期记录

与 Trace-Native Evaluation 的关系

过程评测是 trace-native-evaluation 的具体实践——将 Agent 的完整执行踪迹而非最终分数作为主要评估对象。

相关概念