24 lines
563 B
Markdown
24 lines
563 B
Markdown
---
|
|
title: "SWE-bench"
|
|
created: 2026-05-26
|
|
type: concept
|
|
tags: ["benchmark", "coding-agent", "software-engineering"]
|
|
sources: ["mini-agent-harness"]
|
|
---
|
|
|
|
# SWE-bench
|
|
|
|
> 软件工程任务的 Agent 评测基准:真实 GitHub issue → patch 生成 → 环境测试。
|
|
|
|
## 评测流程
|
|
|
|
1. 给定一个真实 issue
|
|
2. Agent 生成 patch
|
|
3. 将 patch 放入环境运行测试
|
|
4. Harness 负责准备环境、应用 patch、执行测试、汇总结果
|
|
|
|
## 相关页面
|
|
|
|
- [[terminal-bench]] — 终端环境评测
|
|
- [[agent-harness-mini]] — 最小化评测框架
|