20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/agent-process-evaluation.md
+++ b/concepts/agent-process-evaluation.md
@@ -0,0 +1,37 @@
+---
+title: "Agent Process Evaluation（过程评测）"
+created: 2026-05-23
+updated: 2026-05-23
+type: concept
+tags: [agent, evaluation, process, trace]
+sources: [raw/articles/claw-eval-2026.md]
+confidence: high
+---
+
+# Agent Process Evaluation（过程评测）
+
+> 不只评判 Agent 的最终输出，更审查其完整的执行过程——中间步骤是否合理、工具调用是否正确、约束是否遵守。
+
+## 为什么只看最终答案不够
+
+- Agent 可能给出看似合理的结果，却在执行中遗漏关键步骤
+- Claw-Eval 实验：普通 LLM Judge 即使看到完整对话记录，仍**漏掉 44% 安全违规**和**13% 鲁棒性问题**
+- 需要结合**服务端日志**和**环境快照**才能捕捉违规
+
+## 过程评测的关键要素
+
+- **工具调用审计**：每一步工具调用是否符合预期
+- **约束遵循**：行为是否遵守安全边界和任务约束
+- **错误恢复**：异常发生后是否尝试恢复
+- **轨迹完整性**：Setup → Execution → Judge 全生命周期记录
+
+## 与 Trace-Native Evaluation 的关系
+
+过程评测是 [[trace-native-evaluation]] 的具体实践——将 Agent 的完整执行踪迹而非最终分数作为主要评估对象。
+
+## 相关概念
+
+- [[agent-evaluation-paradigm-shift]]
+- [[agent-safety-evaluation]]
+- [[agent-robustness-evaluation]]
+- [[claw-eval]]