1.3 KiB
1.3 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Agent Multidimensional Capability(Agent 多维能力) | 2026-05-23 | 2026-05-23 | concept |
|
|
high |
Agent Multidimensional Capability
Agent 能力是多维的——不同模型在不同的任务类型上各有优势,没有任何一个模型能在所有维度上全面领先。
Claw-Eval 三大维度
- 通用服务:多工具协调、任务拆解
- 多模态:视觉理解、跨模态生成
- 多轮对话:信息采集、渐进决策
关键发现
- 模型在不同任务类型上的排名不一致
- 多模态任务是目前最难的:最高 Pass^3 仅 25.7%
- 一个模型可能在服务编排上领先但在多模态上落后
对评估设计的含义
- 不能仅看"总分"或"平均分"
- 需要按任务类型分解评估
- 针对不同部署场景选择适配的模型(服务编排场景 vs 多模态场景需要不同排名)
与 Agent Harness Engineering 的联系
多模态 Agent 的低可靠性可能与 harness-coupling-problem 有关——视觉工具 Schema 设计、多模态上下文管理等问题尚未解决。