代价感知基准评测 (Cost-Aware Benchmarking)

定义

Cost-Aware Benchmarking 是将端到端运行代价（API 费用、token 用量、wall-clock 时间、缓存命中率）作为与准确率并列的第一等评测轴的基准评测方法论。Claw-SWE-Bench 将其内建于 benchmark 设计，而非作为附属日志。

传统的 SWE-bench 风格评测仅报告 Resolved Rate / Pass@1。这导致：

准确率和代价不同步移动。 真实编程 agent 不是单次模型调用——它反复读文件、编辑代码、运行命令、等待远程模型响应。

在 OpenClaw × 9 模型扫掠中：

相似准确率的代价可能相差 170 倍（GPT 5.5 vs DeepSeek-V4 Flash）。

缓存命中率影响代价但不应视为能力指标——它取决于 provider 缓存策略、adapter 调用路径和上下文重用策略。应作为代价会计的诊断字段报告。