Files
myWiki/concepts/claw-swe-bench-lite.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Claw-SWE-Bench Lite 2026-06-15 2026-06-15 concept
benchmark
evaluation
coding-agent
raw/papers/zheng-claw-swe-bench-2026.md

Claw-SWE-Bench Lite

定义

Claw-SWE-Bench Lite 是完整 350-instance benchmark 的 80-instance 低代价子集设计为开发迭代的快速反馈环——adapter 调试、prompt 修改、模型替换、回归测试——在返回 full-350 进行最终报告之前。

设计原则

Lite 不是简单的随机采样或便利展示样本。它是通过代价感知、排序感知的优化过程,拟合 full-350 的行为选取的。

构成

  • 每语言 10 个实例 × 8 语言 = 80 个实例
  • 70 个非 Python来自 SWE-bench-Multilingual+ 10 个 Python来自 SWE-bench-Verified-Mini
  • 语言内固定难度四分位配额Q1/Q2/Q3/Q4 = 2/3/3/2
  • 覆盖 full-350 43 个仓库中的 34 个79%

选择方法

基于 17 列校准数据9 个 OpenClaw 模型列 + 8 个跨 claw 列),优化三项指标:

  1. Resolve-Rate Parity: 最小化 Lite 估计率与 full-350 真实率之间的 L1 差异
  2. Pairwise Ranking Hinge: 惩罚 Lite 反转 full-350 的排序
  3. Cost Parity: 最小化 log-cost 差异,防止选取异常便宜或昂贵的实例

使用 per-language 200-restart within-quartile 1-swap 局部搜索。

验证结果

  • Full-350 平均 Pass@1: 0.639 / Lite-80: 0.643(差异 +0.4 pp
  • 跨 claw 验证 (5 claws × 2 models):平均绝对差异 1.88 pp最大 3.68 pp
  • Lite 运行代价约为 full 的 22.9%(按 token/cost/time 均在 22-24%

K-sweep 敏感性

Lite 的 80-instance 规模来自显式的 K-sweep 而非方便数字:

  • K=8: 2 个场景通过
  • K=9: 3 个场景需要
  • K=10: 4 个结构扰动场景需要
  • 发布保守稳定点 K=10

参考