20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/claw-swe-bench-lite.md
+++ b/concepts/claw-swe-bench-lite.md
@@ -0,0 +1,54 @@
+---
+title: "Claw-SWE-Bench Lite"
+created: 2026-06-15
+updated: 2026-06-15
+type: concept
+tags: [benchmark, evaluation, coding-agent]
+sources: [raw/papers/zheng-claw-swe-bench-2026.md]
+---
+
+# Claw-SWE-Bench Lite
+
+## 定义
+
+Claw-SWE-Bench Lite 是完整 350-instance benchmark 的 **80-instance 低代价子集**，设计为开发迭代的快速反馈环——adapter 调试、prompt 修改、模型替换、回归测试——在返回 full-350 进行最终报告之前。
+
+## 设计原则
+
+Lite 不是简单的随机采样或便利展示样本。它是**通过代价感知、排序感知的优化过程，拟合 full-350 的行为**选取的。
+
+## 构成
+
+- 每语言 10 个实例 × 8 语言 = 80 个实例
+- 70 个非 Python（来自 SWE-bench-Multilingual）+ 10 个 Python（来自 SWE-bench-Verified-Mini）
+- 语言内固定难度四分位配额：Q1/Q2/Q3/Q4 = 2/3/3/2
+- 覆盖 full-350 43 个仓库中的 34 个（79%）
+
+## 选择方法
+
+基于 17 列校准数据（9 个 OpenClaw 模型列 + 8 个跨 claw 列），优化三项指标：
+
+1. **Resolve-Rate Parity:** 最小化 Lite 估计率与 full-350 真实率之间的 L1 差异
+2. **Pairwise Ranking Hinge:** 惩罚 Lite 反转 full-350 的排序
+3. **Cost Parity:** 最小化 log-cost 差异，防止选取异常便宜或昂贵的实例
+
+使用 per-language 200-restart within-quartile 1-swap 局部搜索。
+
+## 验证结果
+
+- Full-350 平均 Pass@1: 0.639 / Lite-80: 0.643（差异 +0.4 pp）
+- 跨 claw 验证 (5 claws × 2 models)：平均绝对差异 1.88 pp，最大 3.68 pp
+- Lite 运行代价约为 full 的 **22.9%**（按 token/cost/time 均在 22-24%）
+
+## K-sweep 敏感性
+
+Lite 的 80-instance 规模来自显式的 K-sweep 而非方便数字：
+- K=8: 2 个场景通过
+- K=9: 3 个场景需要
+- K=10: 4 个结构扰动场景需要
+- 发布保守稳定点 K=10
+
+## 参考
+- [[claw-swe-bench|Claw-SWE-Bench 论文]]
+- [[cost-aware-benchmarking|代价感知基准评测]]
+- [[pareto-frontier-evaluation|Pareto 前沿评测]]