Files
myWiki/concepts/agent-process-evaluation.md
2026-06-01 10:46:01 +08:00

38 lines
1.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Agent Process Evaluation过程评测"
created: 2026-05-23
updated: 2026-05-23
type: concept
tags: [agent, evaluation, process, trace]
sources: [raw/articles/claw-eval-2026.md]
confidence: high
---
# Agent Process Evaluation过程评测
> 不只评判 Agent 的最终输出,更审查其完整的执行过程——中间步骤是否合理、工具调用是否正确、约束是否遵守。
## 为什么只看最终答案不够
- Agent 可能给出看似合理的结果,却在执行中遗漏关键步骤
- Claw-Eval 实验:普通 LLM Judge 即使看到完整对话记录,仍**漏掉 44% 安全违规**和**13% 鲁棒性问题**
- 需要结合**服务端日志**和**环境快照**才能捕捉违规
## 过程评测的关键要素
- **工具调用审计**:每一步工具调用是否符合预期
- **约束遵循**:行为是否遵守安全边界和任务约束
- **错误恢复**:异常发生后是否尝试恢复
- **轨迹完整性**Setup → Execution → Judge 全生命周期记录
## 与 Trace-Native Evaluation 的关系
过程评测是 [[trace-native-evaluation]] 的具体实践——将 Agent 的完整执行踪迹而非最终分数作为主要评估对象。
## 相关概念
- [[agent-evaluation-paradigm-shift]]
- [[agent-safety-evaluation]]
- [[agent-robustness-evaluation]]
- [[claw-eval]]