Claw-SWE-Bench Lite

Resolve-Rate Parity: 最小化 Lite 估计率与 full-350 真实率之间的 L1 差异
Pairwise Ranking Hinge: 惩罚 Lite 反转 full-350 的排序
Cost Parity: 最小化 log-cost 差异，防止选取异常便宜或昂贵的实例

定义

Claw-SWE-Bench Lite 是完整 350-instance benchmark 的 80-instance 低代价子集，设计为开发迭代的快速反馈环——adapter 调试、prompt 修改、模型替换、回归测试——在返回 full-350 进行最终报告之前。

Lite 不是简单的随机采样或便利展示样本。它是通过代价感知、排序感知的优化过程，拟合 full-350 的行为选取的。

每语言 10 个实例 × 8 语言 = 80 个实例
70 个非 Python（来自 SWE-bench-Multilingual）+ 10 个 Python（来自 SWE-bench-Verified-Mini）
语言内固定难度四分位配额：Q1/Q2/Q3/Q4 = 2/3/3/2
覆盖 full-350 43 个仓库中的 34 个（79%）

基于 17 列校准数据（9 个 OpenClaw 模型列 + 8 个跨 claw 列），优化三项指标：

使用 per-language 200-restart within-quartile 1-swap 局部搜索。

Lite 的 80-instance 规模来自显式的 K-sweep 而非方便数字：