20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/articles/claw-eval.md
+++ b/articles/claw-eval.md
@@ -0,0 +1,59 @@
+---
+title: "Claw-Eval：面向自主Agent的端到端评测框架"
+created: 2026-05-23
+updated: 2026-05-23
+type: article
+tags: [agent, evaluation, benchmark, safety, robustness]
+sources: [raw/articles/claw-eval-2026.md]
+confidence: high
+---
+
+# Claw-Eval：面向自主 Agent 的端到端评测框架
+
+> Agent 评测范式的转变：从看最终答案到看完整过程，从展示能力到验证可靠性，从单次成功到稳定、可审计、可复核的任务完成。
+
+## 核心设计理念
+
+- **轻量运行层 + 真实任务**：不追求复杂工程增强，用统一、可审计的基座承载真实复杂工作流
+- **Setup → Execution → Judge** 生命周期：完整记录模型行为、工具调用、服务端日志和环境快照
+- 300 个人工验证任务，14 个前沿模型
+
+## 三大任务组
+
+| 任务组 | 重点考察 |
+|-------|---------|
+| 通用服务任务 | 多工具、多服务环境中的任务拆解与执行 |
+| 多模态任务 | 视频/文档/图像理解 + 主动生成 |
+| 多轮专业对话 | 信息不完整时主动提问、澄清条件、形成建议 |
+
+## 三维护评分
+
+- **[[agent-completion-evaluation|Completion]]**：任务是否完成，结果是否符合要求
+- **[[agent-safety-evaluation|Safety]]**：执行过程是否遵守约束
+- **[[agent-robustness-evaluation|Robustness]]**：面对故障时能否恢复
+
+## Pass@k vs Pass^k：能力 ≠ 稳定性
+
+- **[[pass-at-k-vs-pass-k|Pass@3]]**：三次中至少成功一次 → 接近能力上限
+- **[[pass-at-k-vs-pass-k|Pass^3]]**：三次全部成功 → 接近可靠性下限
+- 错误注入实验中 Pass^3 最高下降 24 个百分点
+
+## 三个关键发现
+
+1. **[[agent-process-evaluation|只看对话轨迹不可靠]]**：LLM Judge 漏掉 44% 安全违规和 13% 鲁棒性问题
+2. **[[agent-capability-stability-gap|能力 ≠ 稳定性]]**：一次成功不能代表稳定可用
+3. **[[agent-multidimensional-capability|Agent 能力是多维的]]**：最高多模态 Pass^3 仅 25.7%
+
+## 关键洞察：问题质量 > 问题数量
+
+[[question-quality-vs-quantity]]：在多轮专业对话中，问题质量解释 76% 的 Pass^3 表现差异，而平均对话轮数与最终表现几乎没有相关性。好的 Agent 不只是会追问，更要知道当前最该问什么。
+
+## 与 Agent Harness Engineering 的联系
+
+Claw-Eval 的设计理念与 [[etclovg-taxonomy]] 中的 V 层（[[verification-evaluation]]）和 O 层（[[observability]]）直接对应：它的混合评测管线（对话记录 + 服务端日志 + 环境快照）正是 [[trace-native-evaluation]] 的实践——不只看最终对错，还要从踪迹中诊断失败。
+
+## 开源资源
+
+- 数据集：ModelScope `claw-eval/Claw-Eval`
+- 排行榜：https://claw-eval.github.io/
+- GitHub：https://github.com/claw-eval/claw-eval