Files
myWiki/concepts/terminal-bench.md
2026-06-01 10:46:01 +08:00

853 B

title, created, type, tags, sources
title created type tags sources
Terminal-Bench 2026-05-26 concept
benchmark
agent-evaluation
terminal
coding
mini-agent-harness

Terminal-Bench

终端环境下的 Agent 评测基准:将模型接入终端,执行命令、安装依赖、调试错误,用测试脚本验证。

任务结构

  • Instruction:任务指令
  • Isolated Environment:隔离执行环境
  • Test Script:验证脚本

swe-bench 的区别

维度 Terminal-Bench SWE-bench
环境 裸终端 Git 仓库
任务 命令行操作 Patch 生成
验证 测试脚本 单元测试
适用场景 系统运维/DevOps 代码修复

相关页面