39 lines
1.2 KiB
Markdown
39 lines
1.2 KiB
Markdown
---
|
||
title: "Pass@k vs Pass^k(能力上限 vs 可靠性下限)"
|
||
created: 2026-05-23
|
||
updated: 2026-05-23
|
||
type: concept
|
||
tags: [agent, evaluation, reliability, metric]
|
||
sources: [raw/articles/claw-eval-2026.md]
|
||
confidence: high
|
||
---
|
||
|
||
# Pass@k vs Pass^k
|
||
|
||
> 区分"能力"与"稳定性"的评估指标:Pass@k 度量能力上限,Pass^k 度量可靠性下限。两者之间的差距揭示了不稳定性的程度。
|
||
|
||
## 定义
|
||
|
||
- **Pass@k**:k 次尝试中至少成功一次 → 接近**能力上限**(模型能做到什么)
|
||
- **Pass^k**:k 次全部成功 → 接近**可靠性下限**(模型稳定能做什么)
|
||
|
||
## Claw-Eval 的关键发现
|
||
|
||
在错误注入实验中(HTTP 429、HTTP 500、延迟峰值):
|
||
- Pass@3 相对稳定
|
||
- **Pass^3 最高下降 24 个百分点**
|
||
|
||
→ 一次成功不能代表稳定可用。
|
||
|
||
## 工程含义
|
||
|
||
Pass@k 和 Pass^k 的**差距**是衡量 Agent 鲁棒性的关键指标:
|
||
- 差距小 → Agent 稳定可靠,适合生产部署
|
||
- 差距大 → Agent 表现波动大,需要 [[agent-robustness-evaluation]] 和 [[agent-safety-evaluation]] 改进
|
||
|
||
## 相关概念
|
||
|
||
- [[agent-capability-stability-gap]]
|
||
- [[agent-robustness-evaluation]]
|
||
- [[claw-eval]]
|