Files
myWiki/reviews/claw-swe-bench-review-20260615.md

60 lines
3.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Claw-SWE-Bench 论文集成 Review"
created: 2026-06-15
updated: 2026-06-15
type: review
tags: [review, benchmark, coding-agent]
sources: [raw/papers/zheng-claw-swe-bench-2026.md]
---
# Claw-SWE-Bench Review
📌 **基本信息**
- 论文Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks
- 作者Mengyu Zheng et al.16 位TokenRhythm / Infinigence AI / CityU HK / 北大 / 上海交大 / 北京交大 / 清华)
- arXiv2606.12344v1 | 日期2026-06-10 | 领域cs.LG, cs.CL
- 资源:[GitHub](https://github.com/opensquilla/claw-swe-bench) | [HuggingFace](https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench)
---
🎯 **核心概念**
1. **Agent Harness (Claw)** — 将 LLM 包装为自主编程系统的工程层。不是模型本身,而是 agent 循环、工具接口、停止策略等。Claw-SWE-Bench 首次将其作为受控实验变量。
2. **Adapter Protocol** — 标准化的 5 方法生命周期接口,将异构 harness 连接到统一评测管道。Full Adapter 将 Apply Failed 从 69.1% 降至 <1.5%Pass@1 19.1% 跃升至 73.4%。
3. **Cost-Aware Benchmarking** 将总 API 代价墙钟时间缓存命中率作为与 Pass@1 并列的第一等评测轴GPT 5.5 ($1,399) DeepSeek-V4 Flash ($8.2) 在相似准确率下代价相差 170
4. **Pareto Frontier** 在准确率-代价二维平面上识别非支配操作点使"略低准确率但极低代价"的系统获得可解释的定位
5. **Claw-SWE-Bench Lite** 80-instance 代价感知子集保留 full-350 Pass@1 尺度和排序稳定性运行代价仅 22.9%。
6. **Future-Commit Cleanup** 移除 non-Python 实例中 base_commit 后的 Git 历史清理后 Pass@1 从不上涨Claude Opus 4.7 下降最多8.0 pp揭示不同模型对信息泄露的利用差异
---
🔗 **概念网络**
- **核心连接**`agent-harness` `adapter-protocol` `patch-based-evaluation` `swe-bench`
- **评测轴连接**`cost-aware-benchmarking` `pareto-frontier-evaluation` `claw-swe-bench-lite`
- **公平性连接**`future-commit-cleanup` `bare-adapter`诊断基线
- **交互效应**`harness-model-interaction` 连接 model 轴与 claw
- **实体引用**`openclaw` 作为参考 claw
📊 **新增页面**12 1 论文 + 11 概念
📊 **链接密度**核心概念平均 3-4 个出站链接
**网络完整**100% 无断链
📈 **总规模**799 810
---
💡 **关键洞察**
1. **Harness 是第一序变量,不是实现细节。** Harness 选择在固定模型下产生 12.5-27.4 pp Pass@1 差距——足以重排 Leaderboard此前所有 SWE-bench 衍生工作均未将 harness 作为受控变量
2. **Adapter 不是工程包装,是评分可靠性的必要条件。** 直接输出 unified-diff 文本的脆弱性导致 69.1% patch 无法 apply——这不是模型能力问题是输出合约问题
3. **准确率与代价的脱耦是 benchmark 设计问题。** 仅报告 Resolved Rate 会隐性奖励更长探索和更高预算将代价设为第一等轴使小团队和学术组的参与成为可能——DeepSeek-V4 Flash 以不到 $10 达到 70.3% Pass@1
4. **Future-Commit 清理揭示模型对信息泄露的异构敏感性。** 不同模型利用"未来信息"的程度差异巨大1-8 pp控制这一变量对于公正比较至关重要