Files
myWiki/concepts/agent-multidimensional-capability.md
2026-06-01 10:46:01 +08:00

1.3 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
Agent Multidimensional CapabilityAgent 多维能力) 2026-05-23 2026-05-23 concept
agent
capability
multi-dimensional
evaluation
raw/articles/claw-eval-2026.md
high

Agent Multidimensional Capability

Agent 能力是多维的——不同模型在不同的任务类型上各有优势,没有任何一个模型能在所有维度上全面领先。

Claw-Eval 三大维度

  • 通用服务:多工具协调、任务拆解
  • 多模态:视觉理解、跨模态生成
  • 多轮对话:信息采集、渐进决策

关键发现

  1. 模型在不同任务类型上的排名不一致
  2. 多模态任务是目前最难的:最高 Pass^3 仅 25.7%
  3. 一个模型可能在服务编排上领先但在多模态上落后

对评估设计的含义

  • 不能仅看"总分"或"平均分"
  • 需要按任务类型分解评估
  • 针对不同部署场景选择适配的模型(服务编排场景 vs 多模态场景需要不同排名)

与 Agent Harness Engineering 的联系

多模态 Agent 的低可靠性可能与 harness-coupling-problem 有关——视觉工具 Schema 设计、多模态上下文管理等问题尚未解决。

相关概念