Files
myWiki/articles/claw-eval.md
2026-06-01 10:46:01 +08:00

60 lines
2.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Claw-Eval面向自主Agent的端到端评测框架"
created: 2026-05-23
updated: 2026-05-23
type: article
tags: [agent, evaluation, benchmark, safety, robustness]
sources: [raw/articles/claw-eval-2026.md]
confidence: high
---
# Claw-Eval面向自主 Agent 的端到端评测框架
> Agent 评测范式的转变:从看最终答案到看完整过程,从展示能力到验证可靠性,从单次成功到稳定、可审计、可复核的任务完成。
## 核心设计理念
- **轻量运行层 + 真实任务**:不追求复杂工程增强,用统一、可审计的基座承载真实复杂工作流
- **Setup → Execution → Judge** 生命周期:完整记录模型行为、工具调用、服务端日志和环境快照
- 300 个人工验证任务14 个前沿模型
## 三大任务组
| 任务组 | 重点考察 |
|-------|---------|
| 通用服务任务 | 多工具、多服务环境中的任务拆解与执行 |
| 多模态任务 | 视频/文档/图像理解 + 主动生成 |
| 多轮专业对话 | 信息不完整时主动提问、澄清条件、形成建议 |
## 三维护评分
- **[[agent-completion-evaluation|Completion]]**:任务是否完成,结果是否符合要求
- **[[agent-safety-evaluation|Safety]]**:执行过程是否遵守约束
- **[[agent-robustness-evaluation|Robustness]]**:面对故障时能否恢复
## Pass@k vs Pass^k能力 ≠ 稳定性
- **[[pass-at-k-vs-pass-k|Pass@3]]**:三次中至少成功一次 → 接近能力上限
- **[[pass-at-k-vs-pass-k|Pass^3]]**:三次全部成功 → 接近可靠性下限
- 错误注入实验中 Pass^3 最高下降 24 个百分点
## 三个关键发现
1. **[[agent-process-evaluation|只看对话轨迹不可靠]]**LLM Judge 漏掉 44% 安全违规和 13% 鲁棒性问题
2. **[[agent-capability-stability-gap|能力 ≠ 稳定性]]**:一次成功不能代表稳定可用
3. **[[agent-multidimensional-capability|Agent 能力是多维的]]**:最高多模态 Pass^3 仅 25.7%
## 关键洞察:问题质量 > 问题数量
[[question-quality-vs-quantity]]:在多轮专业对话中,问题质量解释 76% 的 Pass^3 表现差异,而平均对话轮数与最终表现几乎没有相关性。好的 Agent 不只是会追问,更要知道当前最该问什么。
## 与 Agent Harness Engineering 的联系
Claw-Eval 的设计理念与 [[etclovg-taxonomy]] 中的 V 层([[verification-evaluation]])和 O 层([[observability]])直接对应:它的混合评测管线(对话记录 + 服务端日志 + 环境快照)正是 [[trace-native-evaluation]] 的实践——不只看最终对错,还要从踪迹中诊断失败。
## 开源资源
- 数据集ModelScope `claw-eval/Claw-Eval`
- 排行榜https://claw-eval.github.io/
- GitHubhttps://github.com/claw-eval/claw-eval