Files
myWiki/concepts/pass-at-k-vs-pass-k.md
2026-06-01 10:46:01 +08:00

39 lines
1.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Pass@k vs Pass^k能力上限 vs 可靠性下限)"
created: 2026-05-23
updated: 2026-05-23
type: concept
tags: [agent, evaluation, reliability, metric]
sources: [raw/articles/claw-eval-2026.md]
confidence: high
---
# Pass@k vs Pass^k
> 区分"能力"与"稳定性"的评估指标Pass@k 度量能力上限Pass^k 度量可靠性下限。两者之间的差距揭示了不稳定性的程度。
## 定义
- **Pass@k**k 次尝试中至少成功一次 → 接近**能力上限**(模型能做到什么)
- **Pass^k**k 次全部成功 → 接近**可靠性下限**(模型稳定能做什么)
## Claw-Eval 的关键发现
在错误注入实验中HTTP 429、HTTP 500、延迟峰值
- Pass@3 相对稳定
- **Pass^3 最高下降 24 个百分点**
→ 一次成功不能代表稳定可用。
## 工程含义
Pass@k 和 Pass^k 的**差距**是衡量 Agent 鲁棒性的关键指标:
- 差距小 → Agent 稳定可靠,适合生产部署
- 差距大 → Agent 表现波动大,需要 [[agent-robustness-evaluation]] 和 [[agent-safety-evaluation]] 改进
## 相关概念
- [[agent-capability-stability-gap]]
- [[agent-robustness-evaluation]]
- [[claw-eval]]