--- title: "Pass@k vs Pass^k(能力上限 vs 可靠性下限)" created: 2026-05-23 updated: 2026-05-23 type: concept tags: [agent, evaluation, reliability, metric] sources: [raw/articles/claw-eval-2026.md] confidence: high --- # Pass@k vs Pass^k > 区分"能力"与"稳定性"的评估指标:Pass@k 度量能力上限,Pass^k 度量可靠性下限。两者之间的差距揭示了不稳定性的程度。 ## 定义 - **Pass@k**:k 次尝试中至少成功一次 → 接近**能力上限**(模型能做到什么) - **Pass^k**:k 次全部成功 → 接近**可靠性下限**(模型稳定能做什么) ## Claw-Eval 的关键发现 在错误注入实验中(HTTP 429、HTTP 500、延迟峰值): - Pass@3 相对稳定 - **Pass^3 最高下降 24 个百分点** → 一次成功不能代表稳定可用。 ## 工程含义 Pass@k 和 Pass^k 的**差距**是衡量 Agent 鲁棒性的关键指标: - 差距小 → Agent 稳定可靠,适合生产部署 - 差距大 → Agent 表现波动大,需要 [[agent-robustness-evaluation]] 和 [[agent-safety-evaluation]] 改进 ## 相关概念 - [[agent-capability-stability-gap]] - [[agent-robustness-evaluation]] - [[claw-eval]]