853 B
853 B
title, created, type, tags, sources
| title | created | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|
| Terminal-Bench | 2026-05-26 | concept |
|
|
Terminal-Bench
终端环境下的 Agent 评测基准:将模型接入终端,执行命令、安装依赖、调试错误,用测试脚本验证。
任务结构
- Instruction:任务指令
- Isolated Environment:隔离执行环境
- Test Script:验证脚本
与 swe-bench 的区别
| 维度 | Terminal-Bench | SWE-bench |
|---|---|---|
| 环境 | 裸终端 | Git 仓库 |
| 任务 | 命令行操作 | Patch 生成 |
| 验证 | 测试脚本 | 单元测试 |
| 适用场景 | 系统运维/DevOps | 代码修复 |
相关页面
- agent-computer-interface — 终端即 ACI
- agent-harness-mini — 可参考其任务结构