Files
myWiki/concepts/claw-swe-bench-lite.md

55 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Claw-SWE-Bench Lite"
created: 2026-06-15
updated: 2026-06-15
type: concept
tags: [benchmark, evaluation, coding-agent]
sources: [raw/papers/zheng-claw-swe-bench-2026.md]
---
# Claw-SWE-Bench Lite
## 定义
Claw-SWE-Bench Lite 是完整 350-instance benchmark 的 **80-instance 低代价子集**设计为开发迭代的快速反馈环——adapter 调试、prompt 修改、模型替换、回归测试——在返回 full-350 进行最终报告之前。
## 设计原则
Lite 不是简单的随机采样或便利展示样本。它是**通过代价感知、排序感知的优化过程,拟合 full-350 的行为**选取的。
## 构成
- 每语言 10 个实例 × 8 语言 = 80 个实例
- 70 个非 Python来自 SWE-bench-Multilingual+ 10 个 Python来自 SWE-bench-Verified-Mini
- 语言内固定难度四分位配额Q1/Q2/Q3/Q4 = 2/3/3/2
- 覆盖 full-350 43 个仓库中的 34 个79%
## 选择方法
基于 17 列校准数据9 个 OpenClaw 模型列 + 8 个跨 claw 列),优化三项指标:
1. **Resolve-Rate Parity:** 最小化 Lite 估计率与 full-350 真实率之间的 L1 差异
2. **Pairwise Ranking Hinge:** 惩罚 Lite 反转 full-350 的排序
3. **Cost Parity:** 最小化 log-cost 差异,防止选取异常便宜或昂贵的实例
使用 per-language 200-restart within-quartile 1-swap 局部搜索。
## 验证结果
- Full-350 平均 Pass@1: 0.639 / Lite-80: 0.643(差异 +0.4 pp
- 跨 claw 验证 (5 claws × 2 models):平均绝对差异 1.88 pp最大 3.68 pp
- Lite 运行代价约为 full 的 **22.9%**(按 token/cost/time 均在 22-24%
## K-sweep 敏感性
Lite 的 80-instance 规模来自显式的 K-sweep 而非方便数字:
- K=8: 2 个场景通过
- K=9: 3 个场景需要
- K=10: 4 个结构扰动场景需要
- 发布保守稳定点 K=10
## 参考
- [[claw-swe-bench|Claw-SWE-Bench 论文]]
- [[cost-aware-benchmarking|代价感知基准评测]]
- [[pareto-frontier-evaluation|Pareto 前沿评测]]