20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/reviews/claw-swe-bench-review-20260615.md
+++ b/reviews/claw-swe-bench-review-20260615.md
@@ -0,0 +1,59 @@
+---
+title: "Claw-SWE-Bench 论文集成 Review"
+created: 2026-06-15
+updated: 2026-06-15
+type: review
+tags: [review, benchmark, coding-agent]
+sources: [raw/papers/zheng-claw-swe-bench-2026.md]
+---
+
+# Claw-SWE-Bench Review
+
+📌 **基本信息**
+- 论文：Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks
+- 作者：Mengyu Zheng et al.（16 位，TokenRhythm / Infinigence AI / CityU HK / 北大 / 上海交大 / 北京交大 / 清华）
+- arXiv：2606.12344v1 | 日期：2026-06-10 | 领域：cs.LG, cs.CL
+- 资源：[GitHub](https://github.com/opensquilla/claw-swe-bench) | [HuggingFace](https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench)
+
+---
+
+🎯 **核心概念**
+
+1. **Agent Harness (Claw)** — 将 LLM 包装为自主编程系统的工程层。不是模型本身，而是 agent 循环、工具接口、停止策略等。Claw-SWE-Bench 首次将其作为受控实验变量。
+
+2. **Adapter Protocol** — 标准化的 5 方法生命周期接口，将异构 harness 连接到统一评测管道。Full Adapter 将 Apply Failed 从 69.1% 降至 <1.5%，Pass@1 从 19.1% 跃升至 73.4%。
+
+3. **Cost-Aware Benchmarking** — 将总 API 代价、墙钟时间、缓存命中率作为与 Pass@1 并列的第一等评测轴。GPT 5.5 ($1,399) 和 DeepSeek-V4 Flash ($8.2) 在相似准确率下代价相差 170 倍。
+
+4. **Pareto Frontier** — 在准确率-代价二维平面上识别非支配操作点，使"略低准确率但极低代价"的系统获得可解释的定位。
+
+5. **Claw-SWE-Bench Lite** — 80-instance 代价感知子集，保留 full-350 的 Pass@1 尺度和排序稳定性，运行代价仅 22.9%。
+
+6. **Future-Commit Cleanup** — 移除 non-Python 实例中 base_commit 后的 Git 历史。清理后 Pass@1 从不上涨；Claude Opus 4.7 下降最多（−8.0 pp），揭示不同模型对信息泄露的利用差异。
+
+---
+
+🔗 **概念网络**
+
+- **核心连接**：`agent-harness` ↔ `adapter-protocol` ↔ `patch-based-evaluation` ↔ `swe-bench`
+- **评测轴连接**：`cost-aware-benchmarking` ↔ `pareto-frontier-evaluation` ↔ `claw-swe-bench-lite`
+- **公平性连接**：`future-commit-cleanup` ↔ `bare-adapter`（诊断基线）
+- **交互效应**：`harness-model-interaction` 连接 model 轴与 claw 轴
+- **实体引用**：`openclaw` 作为参考 claw
+
+📊 **新增页面**：12 个（1 论文 + 11 概念）
+📊 **链接密度**：核心概念平均 3-4 个出站链接
+✅ **网络完整**：100% 无断链
+📈 **总规模**：799 → 810 页
+
+---
+
+💡 **关键洞察**
+
+1. **Harness 是第一序变量，不是实现细节。** Harness 选择在固定模型下产生 12.5-27.4 pp 的 Pass@1 差距——足以重排 Leaderboard。此前所有 SWE-bench 衍生工作均未将 harness 作为受控变量。
+
+2. **Adapter 不是工程包装，是评分可靠性的必要条件。** 直接输出 unified-diff 文本的脆弱性导致 69.1% 的 patch 无法 apply——这不是模型能力问题，是输出合约问题。
+
+3. **准确率与代价的脱耦是 benchmark 设计问题。** 仅报告 Resolved Rate 会隐性奖励更长探索和更高预算。将代价设为第一等轴使小团队和学术组的参与成为可能——DeepSeek-V4 Flash 以不到 $10 达到 70.3% Pass@1。
+
+4. **Future-Commit 清理揭示模型对信息泄露的异构敏感性。** 不同模型利用"未来信息"的程度差异巨大（1-8 pp），控制这一变量对于公正比较至关重要。