20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/swe-bench.md
+++ b/concepts/swe-bench.md
@@ -1,23 +1,40 @@
 ---
 title: "SWE-bench"
-created: 2026-05-26
+created: 2026-06-15
+updated: 2026-06-15
 type: concept
-tags: ["benchmark", "coding-agent", "software-engineering"]
-sources: ["mini-agent-harness"]
+tags: [benchmark, evaluation, coding-agent]
+sources: [raw/papers/zheng-claw-swe-bench-2026.md]
 ---

 # SWE-bench

-> 软件工程任务的 Agent 评测基准：真实 GitHub issue → patch 生成 → 环境测试。
+## 定义

-## 评测流程
+SWE-bench 是仓库级代码 agent 评测的事实标准。它基于真实的 GitHub issue，要求系统提交一个可 apply 到仓库的 diff patch，由仓库级测试判定是否解决。核心评分合约：给定 `problem_statement`、`repo`、`base_commit`，系统提交 `model_patch` → evaluator apply patch → 运行测试 → Resolved/Not Resolved。

-1. 给定一个真实 issue
-2. Agent 生成 patch
-3. 将 patch 放入环境运行测试
-4. Harness 负责准备环境、应用 patch、执行测试、汇总结果
+## 关键组成部分

-## 相关页面
+- **SWE-bench:** 原始 Python 仓库 issue-resolution benchmark
+- **SWE-bench-Multilingual:** 扩展到 7 种非 Python 语言（Java, Go, Rust, JS/TS, C/C++, Ruby, PHP），贡献 300 个实例
+- **SWE-bench-Verified-Mini:** 人类验证的 Python 子集，贡献 50 个实例

- [[terminal-bench]] — 终端环境评测
- [[agent-harness-mini]] — 最小化评测框架
+## Claw-SWE-Bench 的定位
+
+Claw-SWE-Bench 将 SWE-bench 的评测范式从"单系统报告"升级为"受控实验"：
+- 保持 SWE-bench 的 patch-based 评测合约
+- 将 agent harness 作为受控实验变量
+- 添加代价会计作为第一等评测轴
+- 提供标准化的 adapter 协议
+
+## 相关工作
+
+Claw-SWE-Bench 在三个方面区别于之前的 SWE-bench 衍生工作：
+- HAL：倡导整体 accuracy-cost-latency 评测，但仅发布一个 harness
+- SWE-Bench Pro：统一 scaffolding 但用于比较模型而非 harness
+- SWE-Effi：注意到 scaffold-model 纠缠但未作为受控测量
+
+## 参考
+- [[claw-swe-bench|Claw-SWE-Bench 论文]]
+- [[patch-based-evaluation|Patch-Based Evaluation]]
+- [[cost-aware-benchmarking|代价感知基准评测]]