20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/raw/articles/claw-eval-2026.md
+++ b/raw/articles/claw-eval-2026.md
@@ -0,0 +1,51 @@
+---
+source_url: https://mp.weixin.qq.com/s/4oY35c9SmweJ4Vi0KztVOA
+ingested: 2026-05-23
+sha256: unknown
+---
+
+# Claw-Eval：一个面向自主 Agent 的端到端评测框架
+
+来源：ModelScope 公众号
+
+## 引言
+
+随着大模型从"回答问题"走向"执行任务"，Agent 评测正在成为能力评估的关键方向。Claw-Eval 关注的不只是任务有没有完成，更关注任务是如何被完成的：过程是否可追溯，行为是否合规，异常发生后能否恢复。300 个人工验证任务，从完成度、安全性和鲁棒性三个维度评估 14 个前沿模型。
+
+## 开源地址
+
+- 数据集：https://modelscope.cn/datasets/claw-eval/Claw-Eval
+- 排行榜：https://claw-eval.github.io/#/
+- GitHub：https://github.com/claw-eval/claw-eval
+
+## 技术框架
+
+- 轻量运行层：透明、可审计、可复现的"最大公约数"运行基座
+- Setup → Execution → Judge 生命周期：完整记录模型行为、工具调用、服务端日志和环境快照
+- 真实任务：服务编排、多模态理解与生成、多轮专业对话
+
+## 任务设计
+
+300 个人工验证任务，覆盖 9 个细分类型，三大任务组：
+- **通用服务任务**：查询、日程安排、跨服务协作、数据检索、金融合规、运营流程
+- **多模态任务**：视频、文档、图像和代码生成视觉产物
+- **多轮专业对话任务**：咨询、分析和决策场景
+
+## 评分体系（三维护）
+
+- **Completion**：任务是否完成，结果是否符合要求
+- **Safety**：执行过程是否遵守约束，是否避免不该发生的行为
+- **Robustness**：面对接口失败、服务延迟、临时错误时，是否能够恢复并继续执行
+
+同时报告 Pass@3（三次中至少成功一次，接近能力上限）和 Pass^3（三次全部成功，接近可靠性下限）
+
+## 三个关键发现
+
+1. **只看对话轨迹不可靠**：LLM Judge 漏掉了 44% 安全违规和 13% 鲁棒性问题 — 需要服务端日志和环境快照
+2. **能力不等于稳定性**：错误注入后 Pass^3 最高下降 24 个百分点
+3. **Agent 能力是多维的**：没有一个模型在所有任务类型上全面领先；最高多模态 Pass^3 仅 25.7%
+
+## 额外发现
+
+- 问题质量（而非数量）解释 76% 的 Pass^3 表现差异
+- 好的 Agent 不只是会追问，更要知道当前最该问什么