title, created, type, tags, sources
| title |
created |
type |
tags |
sources |
| Mini Agent Harness |
2026-05-26 |
concept |
| agent-evaluation |
| harness |
| engineering |
|
|
Mini Agent Harness
最小可用的 Agent 评测框架:把 Agentic model 放进可运行、可记录、可评分的小环境。
定义
Mini Agent Harness 是一个轻量级的 Agent 评测框架,由五个核心模块组成:
- Task(任务输入):明确的任务描述
- Environment(可操作环境):代码仓库、文件组等封闭环境
- Tools(工具接口):Agent 可调用的工具列表
- agent-eval-trace(执行记录):每步工具调用、参数、返回值的完整记录
- agent-eval-grader(评分器):基于规则或测试脚本的结果判断
核心价值
| 手动测试 |
Mini Harness |
| 只看到最终回答 |
记录完整执行过程 |
| 凭感觉判断好坏 |
按规则评分 |
| 问题难以定位 |
可分析到具体步骤 |
设计哲学
- 先有骨架再扩展:第一版只需串起五要素
- 可分析性优先:不是"好不好用",而是"哪里出问题"
- 环境封闭:固定环境保证可复现性
与其他 Harness 概念的关系
参考