This commit is contained in:
2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions

View File

@@ -0,0 +1,38 @@
---
title: "Pass@k vs Pass^k能力上限 vs 可靠性下限)"
created: 2026-05-23
updated: 2026-05-23
type: concept
tags: [agent, evaluation, reliability, metric]
sources: [raw/articles/claw-eval-2026.md]
confidence: high
---
# Pass@k vs Pass^k
> 区分"能力"与"稳定性"的评估指标Pass@k 度量能力上限Pass^k 度量可靠性下限。两者之间的差距揭示了不稳定性的程度。
## 定义
- **Pass@k**k 次尝试中至少成功一次 → 接近**能力上限**(模型能做到什么)
- **Pass^k**k 次全部成功 → 接近**可靠性下限**(模型稳定能做什么)
## Claw-Eval 的关键发现
在错误注入实验中HTTP 429、HTTP 500、延迟峰值
- Pass@3 相对稳定
- **Pass^3 最高下降 24 个百分点**
→ 一次成功不能代表稳定可用。
## 工程含义
Pass@k 和 Pass^k 的**差距**是衡量 Agent 鲁棒性的关键指标:
- 差距小 → Agent 稳定可靠,适合生产部署
- 差距大 → Agent 表现波动大,需要 [[agent-robustness-evaluation]] 和 [[agent-safety-evaluation]] 改进
## 相关概念
- [[agent-capability-stability-gap]]
- [[agent-robustness-evaluation]]
- [[claw-eval]]