Files
myWiki/reviews/claw-swe-bench-review-20260615.md

3.4 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Claw-SWE-Bench 论文集成 Review 2026-06-15 2026-06-15 review
review
benchmark
coding-agent
raw/papers/zheng-claw-swe-bench-2026.md

Claw-SWE-Bench Review

📌 基本信息

  • 论文Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks
  • 作者Mengyu Zheng et al.16 位TokenRhythm / Infinigence AI / CityU HK / 北大 / 上海交大 / 北京交大 / 清华)
  • arXiv2606.12344v1 | 日期2026-06-10 | 领域cs.LG, cs.CL
  • 资源:GitHub | HuggingFace

🎯 核心概念

  1. Agent Harness (Claw) — 将 LLM 包装为自主编程系统的工程层。不是模型本身,而是 agent 循环、工具接口、停止策略等。Claw-SWE-Bench 首次将其作为受控实验变量。

  2. Adapter Protocol — 标准化的 5 方法生命周期接口,将异构 harness 连接到统一评测管道。Full Adapter 将 Apply Failed 从 69.1% 降至 <1.5%Pass@1 从 19.1% 跃升至 73.4%。

  3. Cost-Aware Benchmarking — 将总 API 代价、墙钟时间、缓存命中率作为与 Pass@1 并列的第一等评测轴。GPT 5.5 ($1,399) 和 DeepSeek-V4 Flash ($8.2) 在相似准确率下代价相差 170 倍。

  4. Pareto Frontier — 在准确率-代价二维平面上识别非支配操作点,使"略低准确率但极低代价"的系统获得可解释的定位。

  5. Claw-SWE-Bench Lite — 80-instance 代价感知子集,保留 full-350 的 Pass@1 尺度和排序稳定性,运行代价仅 22.9%。

  6. Future-Commit Cleanup — 移除 non-Python 实例中 base_commit 后的 Git 历史。清理后 Pass@1 从不上涨Claude Opus 4.7 下降最多8.0 pp揭示不同模型对信息泄露的利用差异。


🔗 概念网络

  • 核心连接agent-harnessadapter-protocolpatch-based-evaluationswe-bench
  • 评测轴连接cost-aware-benchmarkingpareto-frontier-evaluationclaw-swe-bench-lite
  • 公平性连接future-commit-cleanupbare-adapter(诊断基线)
  • 交互效应harness-model-interaction 连接 model 轴与 claw 轴
  • 实体引用openclaw 作为参考 claw

📊 新增页面12 个1 论文 + 11 概念) 📊 链接密度:核心概念平均 3-4 个出站链接 网络完整100% 无断链 📈 总规模799 → 810 页


💡 关键洞察

  1. Harness 是第一序变量,不是实现细节。 Harness 选择在固定模型下产生 12.5-27.4 pp 的 Pass@1 差距——足以重排 Leaderboard。此前所有 SWE-bench 衍生工作均未将 harness 作为受控变量。

  2. Adapter 不是工程包装,是评分可靠性的必要条件。 直接输出 unified-diff 文本的脆弱性导致 69.1% 的 patch 无法 apply——这不是模型能力问题是输出合约问题。

  3. 准确率与代价的脱耦是 benchmark 设计问题。 仅报告 Resolved Rate 会隐性奖励更长探索和更高预算。将代价设为第一等轴使小团队和学术组的参与成为可能——DeepSeek-V4 Flash 以不到 $10 达到 70.3% Pass@1。

  4. Future-Commit 清理揭示模型对信息泄露的异构敏感性。 不同模型利用"未来信息"的程度差异巨大1-8 pp控制这一变量对于公正比较至关重要。