myWiki/concepts/swe-bench.md

---
title: "SWE-bench"
created: 2026-05-26
type: concept
tags: ["benchmark", "coding-agent", "software-engineering"]
sources: ["mini-agent-harness"]
---

# SWE-bench

> 软件工程任务的 Agent 评测基准：真实 GitHub issue → patch 生成 → 环境测试。

## 评测流程

1. 给定一个真实 issue
2. Agent 生成 patch
3. 将 patch 放入环境运行测试
4. Harness 负责准备环境、应用 patch、执行测试、汇总结果

## 相关页面

- [[terminal-bench]] — 终端环境评测
- [[agent-harness-mini]] — 最小化评测框架