Files
myWiki/concepts/pass-at-k-vs-pass-k.md
2026-06-01 10:46:01 +08:00

1.2 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
Pass@k vs Pass^k能力上限 vs 可靠性下限) 2026-05-23 2026-05-23 concept
agent
evaluation
reliability
metric
raw/articles/claw-eval-2026.md
high

Pass@k vs Pass^k

区分"能力"与"稳定性"的评估指标Pass@k 度量能力上限Pass^k 度量可靠性下限。两者之间的差距揭示了不稳定性的程度。

定义

  • Pass@kk 次尝试中至少成功一次 → 接近能力上限(模型能做到什么)
  • Pass^kk 次全部成功 → 接近可靠性下限(模型稳定能做什么)

Claw-Eval 的关键发现

在错误注入实验中HTTP 429、HTTP 500、延迟峰值

  • Pass@3 相对稳定
  • Pass^3 最高下降 24 个百分点

→ 一次成功不能代表稳定可用。

工程含义

Pass@k 和 Pass^k 的差距是衡量 Agent 鲁棒性的关键指标:

相关概念