1.2 KiB
1.2 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Pass@k vs Pass^k(能力上限 vs 可靠性下限) | 2026-05-23 | 2026-05-23 | concept |
|
|
high |
Pass@k vs Pass^k
区分"能力"与"稳定性"的评估指标:Pass@k 度量能力上限,Pass^k 度量可靠性下限。两者之间的差距揭示了不稳定性的程度。
定义
- Pass@k:k 次尝试中至少成功一次 → 接近能力上限(模型能做到什么)
- Pass^k:k 次全部成功 → 接近可靠性下限(模型稳定能做什么)
Claw-Eval 的关键发现
在错误注入实验中(HTTP 429、HTTP 500、延迟峰值):
- Pass@3 相对稳定
- Pass^3 最高下降 24 个百分点
→ 一次成功不能代表稳定可用。
工程含义
Pass@k 和 Pass^k 的差距是衡量 Agent 鲁棒性的关键指标:
- 差距小 → Agent 稳定可靠,适合生产部署
- 差距大 → Agent 表现波动大,需要 agent-robustness-evaluation 和 agent-safety-evaluation 改进