--- title: "Claw-Eval:面向自主Agent的端到端评测框架" created: 2026-05-23 updated: 2026-05-23 type: article tags: [agent, evaluation, benchmark, safety, robustness] sources: [raw/articles/claw-eval-2026.md] confidence: high --- # Claw-Eval:面向自主 Agent 的端到端评测框架 > Agent 评测范式的转变:从看最终答案到看完整过程,从展示能力到验证可靠性,从单次成功到稳定、可审计、可复核的任务完成。 ## 核心设计理念 - **轻量运行层 + 真实任务**:不追求复杂工程增强,用统一、可审计的基座承载真实复杂工作流 - **Setup → Execution → Judge** 生命周期:完整记录模型行为、工具调用、服务端日志和环境快照 - 300 个人工验证任务,14 个前沿模型 ## 三大任务组 | 任务组 | 重点考察 | |-------|---------| | 通用服务任务 | 多工具、多服务环境中的任务拆解与执行 | | 多模态任务 | 视频/文档/图像理解 + 主动生成 | | 多轮专业对话 | 信息不完整时主动提问、澄清条件、形成建议 | ## 三维护评分 - **[[agent-completion-evaluation|Completion]]**:任务是否完成,结果是否符合要求 - **[[agent-safety-evaluation|Safety]]**:执行过程是否遵守约束 - **[[agent-robustness-evaluation|Robustness]]**:面对故障时能否恢复 ## Pass@k vs Pass^k:能力 ≠ 稳定性 - **[[pass-at-k-vs-pass-k|Pass@3]]**:三次中至少成功一次 → 接近能力上限 - **[[pass-at-k-vs-pass-k|Pass^3]]**:三次全部成功 → 接近可靠性下限 - 错误注入实验中 Pass^3 最高下降 24 个百分点 ## 三个关键发现 1. **[[agent-process-evaluation|只看对话轨迹不可靠]]**:LLM Judge 漏掉 44% 安全违规和 13% 鲁棒性问题 2. **[[agent-capability-stability-gap|能力 ≠ 稳定性]]**:一次成功不能代表稳定可用 3. **[[agent-multidimensional-capability|Agent 能力是多维的]]**:最高多模态 Pass^3 仅 25.7% ## 关键洞察:问题质量 > 问题数量 [[question-quality-vs-quantity]]:在多轮专业对话中,问题质量解释 76% 的 Pass^3 表现差异,而平均对话轮数与最终表现几乎没有相关性。好的 Agent 不只是会追问,更要知道当前最该问什么。 ## 与 Agent Harness Engineering 的联系 Claw-Eval 的设计理念与 [[etclovg-taxonomy]] 中的 V 层([[verification-evaluation]])和 O 层([[observability]])直接对应:它的混合评测管线(对话记录 + 服务端日志 + 环境快照)正是 [[trace-native-evaluation]] 的实践——不只看最终对错,还要从踪迹中诊断失败。 ## 开源资源 - 数据集:ModelScope `claw-eval/Claw-Eval` - 排行榜:https://claw-eval.github.io/ - GitHub:https://github.com/claw-eval/claw-eval