Files
myWiki/concepts/swe-bench.md
2026-06-01 10:46:01 +08:00

563 B

title, created, type, tags, sources
title created type tags sources
SWE-bench 2026-05-26 concept
benchmark
coding-agent
software-engineering
mini-agent-harness

SWE-bench

软件工程任务的 Agent 评测基准:真实 GitHub issue → patch 生成 → 环境测试。

评测流程

  1. 给定一个真实 issue
  2. Agent 生成 patch
  3. 将 patch 放入环境运行测试
  4. Harness 负责准备环境、应用 patch、执行测试、汇总结果

相关页面