20260601
This commit is contained in:
51
raw/articles/claw-eval-2026.md
Normal file
51
raw/articles/claw-eval-2026.md
Normal file
@@ -0,0 +1,51 @@
|
||||
---
|
||||
source_url: https://mp.weixin.qq.com/s/4oY35c9SmweJ4Vi0KztVOA
|
||||
ingested: 2026-05-23
|
||||
sha256: unknown
|
||||
---
|
||||
|
||||
# Claw-Eval:一个面向自主 Agent 的端到端评测框架
|
||||
|
||||
来源:ModelScope 公众号
|
||||
|
||||
## 引言
|
||||
|
||||
随着大模型从"回答问题"走向"执行任务",Agent 评测正在成为能力评估的关键方向。Claw-Eval 关注的不只是任务有没有完成,更关注任务是如何被完成的:过程是否可追溯,行为是否合规,异常发生后能否恢复。300 个人工验证任务,从完成度、安全性和鲁棒性三个维度评估 14 个前沿模型。
|
||||
|
||||
## 开源地址
|
||||
|
||||
- 数据集:https://modelscope.cn/datasets/claw-eval/Claw-Eval
|
||||
- 排行榜:https://claw-eval.github.io/#/
|
||||
- GitHub:https://github.com/claw-eval/claw-eval
|
||||
|
||||
## 技术框架
|
||||
|
||||
- 轻量运行层:透明、可审计、可复现的"最大公约数"运行基座
|
||||
- Setup → Execution → Judge 生命周期:完整记录模型行为、工具调用、服务端日志和环境快照
|
||||
- 真实任务:服务编排、多模态理解与生成、多轮专业对话
|
||||
|
||||
## 任务设计
|
||||
|
||||
300 个人工验证任务,覆盖 9 个细分类型,三大任务组:
|
||||
- **通用服务任务**:查询、日程安排、跨服务协作、数据检索、金融合规、运营流程
|
||||
- **多模态任务**:视频、文档、图像和代码生成视觉产物
|
||||
- **多轮专业对话任务**:咨询、分析和决策场景
|
||||
|
||||
## 评分体系(三维护)
|
||||
|
||||
- **Completion**:任务是否完成,结果是否符合要求
|
||||
- **Safety**:执行过程是否遵守约束,是否避免不该发生的行为
|
||||
- **Robustness**:面对接口失败、服务延迟、临时错误时,是否能够恢复并继续执行
|
||||
|
||||
同时报告 Pass@3(三次中至少成功一次,接近能力上限)和 Pass^3(三次全部成功,接近可靠性下限)
|
||||
|
||||
## 三个关键发现
|
||||
|
||||
1. **只看对话轨迹不可靠**:LLM Judge 漏掉了 44% 安全违规和 13% 鲁棒性问题 — 需要服务端日志和环境快照
|
||||
2. **能力不等于稳定性**:错误注入后 Pass^3 最高下降 24 个百分点
|
||||
3. **Agent 能力是多维的**:没有一个模型在所有任务类型上全面领先;最高多模态 Pass^3 仅 25.7%
|
||||
|
||||
## 额外发现
|
||||
|
||||
- 问题质量(而非数量)解释 76% 的 Pass^3 表现差异
|
||||
- 好的 Agent 不只是会追问,更要知道当前最该问什么
|
||||
Reference in New Issue
Block a user