Files
myWiki/concepts/agent-capability-stability-gap.md
2026-06-01 10:46:01 +08:00

1.2 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
Agent Capability-Stability Gap能力-稳定性差距) 2026-05-23 2026-05-23 concept
agent
capability
stability
reliability
raw/articles/claw-eval-2026.md
medium

Agent Capability-Stability Gap

Agent 的"能做到"(能力上限)与"稳定做到"(可靠性下限)之间存在显著差距。这个差距在错误注入后急剧扩大。

度量方法

Claw-Eval 实验

  • 正常环境下 gap 已存在
  • 错误注入后 gap 急剧扩大Pass^3 下降达 24pp
  • 多模态任务中最高 Pass^3 仅 25.7%——所有模型的 gap 都很大

工程含义

对部署决策的影响:

相关概念