Files
myWiki/concepts/agent-multidimensional-capability.md
2026-06-01 10:46:01 +08:00

42 lines
1.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Agent Multidimensional CapabilityAgent 多维能力)"
created: 2026-05-23
updated: 2026-05-23
type: concept
tags: [agent, capability, multi-dimensional, evaluation]
sources: [raw/articles/claw-eval-2026.md]
confidence: high
---
# Agent Multidimensional Capability
> Agent 能力是多维的——不同模型在不同的任务类型上各有优势,没有任何一个模型能在所有维度上全面领先。
## Claw-Eval 三大维度
- **通用服务**:多工具协调、任务拆解
- **多模态**:视觉理解、跨模态生成
- **多轮对话**:信息采集、渐进决策
## 关键发现
1. 模型在不同任务类型上的排名**不一致**
2. 多模态任务是目前最难的:**最高 Pass^3 仅 25.7%**
3. 一个模型可能在服务编排上领先但在多模态上落后
## 对评估设计的含义
- 不能仅看"总分"或"平均分"
- 需要按**任务类型**分解评估
- 针对不同部署场景选择适配的模型(服务编排场景 vs 多模态场景需要不同排名)
## 与 Agent Harness Engineering 的联系
多模态 Agent 的低可靠性可能与 [[harness-coupling-problem]] 有关——视觉工具 Schema 设计、多模态上下文管理等问题尚未解决。
## 相关概念
- [[agent-evaluation-paradigm-shift]]
- [[agent-capability-stability-gap]]
- [[claw-eval]]