Files
myWiki/articles/claw-eval.md
2026-06-01 10:46:01 +08:00

2.8 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
Claw-Eval面向自主Agent的端到端评测框架 2026-05-23 2026-05-23 article
agent
evaluation
benchmark
safety
robustness
raw/articles/claw-eval-2026.md
high

Claw-Eval面向自主 Agent 的端到端评测框架

Agent 评测范式的转变:从看最终答案到看完整过程,从展示能力到验证可靠性,从单次成功到稳定、可审计、可复核的任务完成。

核心设计理念

  • 轻量运行层 + 真实任务:不追求复杂工程增强,用统一、可审计的基座承载真实复杂工作流
  • Setup → Execution → Judge 生命周期:完整记录模型行为、工具调用、服务端日志和环境快照
  • 300 个人工验证任务14 个前沿模型

三大任务组

任务组 重点考察
通用服务任务 多工具、多服务环境中的任务拆解与执行
多模态任务 视频/文档/图像理解 + 主动生成
多轮专业对话 信息不完整时主动提问、澄清条件、形成建议

三维护评分

Pass@k vs Pass^k能力 ≠ 稳定性

  • pass-at-k-vs-pass-k:三次中至少成功一次 → 接近能力上限
  • pass-at-k-vs-pass-k:三次全部成功 → 接近可靠性下限
  • 错误注入实验中 Pass^3 最高下降 24 个百分点

三个关键发现

  1. agent-process-evaluationLLM Judge 漏掉 44% 安全违规和 13% 鲁棒性问题
  2. agent-capability-stability-gap:一次成功不能代表稳定可用
  3. agent-multidimensional-capability:最高多模态 Pass^3 仅 25.7%

关键洞察:问题质量 > 问题数量

question-quality-vs-quantity:在多轮专业对话中,问题质量解释 76% 的 Pass^3 表现差异,而平均对话轮数与最终表现几乎没有相关性。好的 Agent 不只是会追问,更要知道当前最该问什么。

与 Agent Harness Engineering 的联系

Claw-Eval 的设计理念与 etclovg-taxonomy 中的 V 层(verification-evaluation)和 O 层(observability)直接对应:它的混合评测管线(对话记录 + 服务端日志 + 环境快照)正是 trace-native-evaluation 的实践——不只看最终对错,还要从踪迹中诊断失败。

开源资源