20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/agent-multidimensional-capability.md
+++ b/concepts/agent-multidimensional-capability.md
@@ -0,0 +1,41 @@
+---
+title: "Agent Multidimensional Capability（Agent 多维能力）"
+created: 2026-05-23
+updated: 2026-05-23
+type: concept
+tags: [agent, capability, multi-dimensional, evaluation]
+sources: [raw/articles/claw-eval-2026.md]
+confidence: high
+---
+
+# Agent Multidimensional Capability
+
+> Agent 能力是多维的——不同模型在不同的任务类型上各有优势，没有任何一个模型能在所有维度上全面领先。
+
+## Claw-Eval 三大维度
+
+- **通用服务**：多工具协调、任务拆解
+- **多模态**：视觉理解、跨模态生成
+- **多轮对话**：信息采集、渐进决策
+
+## 关键发现
+
+1. 模型在不同任务类型上的排名**不一致**
+2. 多模态任务是目前最难的：**最高 Pass^3 仅 25.7%**
+3. 一个模型可能在服务编排上领先但在多模态上落后
+
+## 对评估设计的含义
+
+- 不能仅看"总分"或"平均分"
+- 需要按**任务类型**分解评估
+- 针对不同部署场景选择适配的模型（服务编排场景 vs 多模态场景需要不同排名）
+
+## 与 Agent Harness Engineering 的联系
+
+多模态 Agent 的低可靠性可能与 [[harness-coupling-problem]] 有关——视觉工具 Schema 设计、多模态上下文管理等问题尚未解决。
+
+## 相关概念
+
+- [[agent-evaluation-paradigm-shift]]
+- [[agent-capability-stability-gap]]
+- [[claw-eval]]