Files
myWiki/concepts/pareto-frontier-evaluation.md

34 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Pareto 前沿评测 (Pareto Frontier Evaluation)"
created: 2026-06-15
updated: 2026-06-15
type: concept
tags: [benchmark, evaluation, cost]
sources: [raw/papers/zheng-claw-swe-bench-2026.md]
---
# Pareto 前沿评测 (Pareto Frontier Evaluation)
## 定义
Pareto 前沿评测将 agent 系统置于 **准确率-代价** 二维平面上,通过 Pareto 前沿(连接所有非支配操作点的曲线)识别在多目标下最优的系统组合。一个操作点被支配,当存在另一个操作点同时在准确率上不差且代价上更低。
## Claw-SWE-Bench 中的应用
在五 claw × 双模型的 350-instance 扫掠中,每个点代表一个 claw-model 组合在完整评估上的 Pass@1 与总 API 代价。Pareto 前沿揭示了:
- **准确率和代价不共线**——更高准确率不一定意味着更高代价
- OpenClaw × DeepSeek-V4 Flash70.3%, $8.2)和 OpenClaw × GLM 5.173.4%, $277都在前沿附近但位置差异巨大
- 仅报告 Resolved Rate 会掩盖代价信息,可能误导 Leaderboard 解读
## Pareto 前沿 vs 单一指标
单一指标(如仅 Pass@1)的问题:
- 无法区分 "高准确率高代价" 和 "略低准确率极低代价" 的系统
- 对资源受限的研究者(小团队、学术组)不友好
- 无法回答 "这个准确率提升值多少钱?"
## 参考
- [[claw-swe-bench|Claw-SWE-Bench 论文]]
- [[cost-aware-benchmarking|代价感知基准评测]]