20260601
This commit is contained in:
41
concepts/agent-multidimensional-capability.md
Normal file
41
concepts/agent-multidimensional-capability.md
Normal file
@@ -0,0 +1,41 @@
|
||||
---
|
||||
title: "Agent Multidimensional Capability(Agent 多维能力)"
|
||||
created: 2026-05-23
|
||||
updated: 2026-05-23
|
||||
type: concept
|
||||
tags: [agent, capability, multi-dimensional, evaluation]
|
||||
sources: [raw/articles/claw-eval-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# Agent Multidimensional Capability
|
||||
|
||||
> Agent 能力是多维的——不同模型在不同的任务类型上各有优势,没有任何一个模型能在所有维度上全面领先。
|
||||
|
||||
## Claw-Eval 三大维度
|
||||
|
||||
- **通用服务**:多工具协调、任务拆解
|
||||
- **多模态**:视觉理解、跨模态生成
|
||||
- **多轮对话**:信息采集、渐进决策
|
||||
|
||||
## 关键发现
|
||||
|
||||
1. 模型在不同任务类型上的排名**不一致**
|
||||
2. 多模态任务是目前最难的:**最高 Pass^3 仅 25.7%**
|
||||
3. 一个模型可能在服务编排上领先但在多模态上落后
|
||||
|
||||
## 对评估设计的含义
|
||||
|
||||
- 不能仅看"总分"或"平均分"
|
||||
- 需要按**任务类型**分解评估
|
||||
- 针对不同部署场景选择适配的模型(服务编排场景 vs 多模态场景需要不同排名)
|
||||
|
||||
## 与 Agent Harness Engineering 的联系
|
||||
|
||||
多模态 Agent 的低可靠性可能与 [[harness-coupling-problem]] 有关——视觉工具 Schema 设计、多模态上下文管理等问题尚未解决。
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[agent-evaluation-paradigm-shift]]
|
||||
- [[agent-capability-stability-gap]]
|
||||
- [[claw-eval]]
|
||||
Reference in New Issue
Block a user