563 B
563 B
title, created, type, tags, sources
| title | created | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|
| SWE-bench | 2026-05-26 | concept |
|
|
SWE-bench
软件工程任务的 Agent 评测基准:真实 GitHub issue → patch 生成 → 环境测试。
评测流程
- 给定一个真实 issue
- Agent 生成 patch
- 将 patch 放入环境运行测试
- Harness 负责准备环境、应用 patch、执行测试、汇总结果
相关页面
- terminal-bench — 终端环境评测
- agent-harness-mini — 最小化评测框架