32 lines
853 B
Markdown
32 lines
853 B
Markdown
---
|
|
title: "Terminal-Bench"
|
|
created: 2026-05-26
|
|
type: concept
|
|
tags: ["benchmark", "agent-evaluation", "terminal", "coding"]
|
|
sources: ["mini-agent-harness"]
|
|
---
|
|
|
|
# Terminal-Bench
|
|
|
|
> 终端环境下的 Agent 评测基准:将模型接入终端,执行命令、安装依赖、调试错误,用测试脚本验证。
|
|
|
|
## 任务结构
|
|
|
|
- **Instruction**:任务指令
|
|
- **Isolated Environment**:隔离执行环境
|
|
- **Test Script**:验证脚本
|
|
|
|
## 与 [[swe-bench]] 的区别
|
|
|
|
| 维度 | Terminal-Bench | SWE-bench |
|
|
|------|---------------|-----------|
|
|
| 环境 | 裸终端 | Git 仓库 |
|
|
| 任务 | 命令行操作 | Patch 生成 |
|
|
| 验证 | 测试脚本 | 单元测试 |
|
|
| 适用场景 | 系统运维/DevOps | 代码修复 |
|
|
|
|
## 相关页面
|
|
|
|
- [[agent-computer-interface]] — 终端即 ACI
|
|
- [[agent-harness-mini]] — 可参考其任务结构
|