SWE-bench

定义

SWE-bench 是仓库级代码 agent 评测的事实标准。它基于真实的 GitHub issue，要求系统提交一个可 apply 到仓库的 diff patch，由仓库级测试判定是否解决。核心评分合约：给定 problem_statement、repo、base_commit，系统提交 model_patch → evaluator apply patch → 运行测试 → Resolved/Not Resolved。

关键组成部分

SWE-bench: 原始 Python 仓库 issue-resolution benchmark
SWE-bench-Multilingual: 扩展到 7 种非 Python 语言（Java, Go, Rust, JS/TS, C/C++, Ruby, PHP），贡献 300 个实例
SWE-bench-Verified-Mini: 人类验证的 Python 子集，贡献 50 个实例

Claw-SWE-Bench 的定位

Claw-SWE-Bench 将 SWE-bench 的评测范式从"单系统报告"升级为"受控实验"：

保持 SWE-bench 的 patch-based 评测合约
将 agent harness 作为受控实验变量
添加代价会计作为第一等评测轴
提供标准化的 adapter 协议

1.6 KiB

Raw Blame History

SWE-bench

定义

关键组成部分

Claw-SWE-Bench 的定位

相关工作

参考

1.6 KiB Raw Blame History Unescape Escape

SWE-bench

定义

关键组成部分

Claw-SWE-Bench 的定位

相关工作

参考

1.6 KiB

Raw Blame History