Files
myWiki/concepts/terminal-bench.md
2026-06-01 10:46:01 +08:00

32 lines
853 B
Markdown

---
title: "Terminal-Bench"
created: 2026-05-26
type: concept
tags: ["benchmark", "agent-evaluation", "terminal", "coding"]
sources: ["mini-agent-harness"]
---
# Terminal-Bench
> 终端环境下的 Agent 评测基准:将模型接入终端,执行命令、安装依赖、调试错误,用测试脚本验证。
## 任务结构
- **Instruction**:任务指令
- **Isolated Environment**:隔离执行环境
- **Test Script**:验证脚本
## 与 [[swe-bench]] 的区别
| 维度 | Terminal-Bench | SWE-bench |
|------|---------------|-----------|
| 环境 | 裸终端 | Git 仓库 |
| 任务 | 命令行操作 | Patch 生成 |
| 验证 | 测试脚本 | 单元测试 |
| 适用场景 | 系统运维/DevOps | 代码修复 |
## 相关页面
- [[agent-computer-interface]] — 终端即 ACI
- [[agent-harness-mini]] — 可参考其任务结构