myWiki/concepts/terminal-bench.md

---
title: "Terminal-Bench"
created: 2026-05-26
type: concept
tags: ["benchmark", "agent-evaluation", "terminal", "coding"]
sources: ["mini-agent-harness"]
---

# Terminal-Bench

> 终端环境下的 Agent 评测基准：将模型接入终端，执行命令、安装依赖、调试错误，用测试脚本验证。

## 任务结构

- **Instruction**：任务指令
- **Isolated Environment**：隔离执行环境
- **Test Script**：验证脚本

## 与 [[swe-bench]] 的区别

| 维度 | Terminal-Bench | SWE-bench |
|------|---------------|-----------|
| 环境 | 裸终端 | Git 仓库 |
| 任务 | 命令行操作 | Patch 生成 |
| 验证 | 测试脚本 | 单元测试 |
| 适用场景 | 系统运维/DevOps | 代码修复 |

## 相关页面

- [[agent-computer-interface]] — 终端即 ACI
- [[agent-harness-mini]] — 可参考其任务结构