2.1 KiB
2.1 KiB
title, author, source, date, type, tags
| title | author | source | date | type | tags | ||||
|---|---|---|---|---|---|---|---|---|---|
| 从零搭建 Mini Agent Harness | 陈思州 | Datawhale (微信公众号) | 2026-05 | article |
|
从零搭建 Mini Agent Harness
Agent = model + harness — 把 Agentic model 放进一个可运行、可记录、可评分的小环境里。
核心问题
手动测试 Agent 只能看到最终回答,看不到它是否真的读了文件、调了什么工具、有没有凭空编造结论。agent-harness-mini 解决的就是这个——让 Agent 的每一步都留下可分析的执行记录。
五大模块
| 模块 | 职责 |
|---|---|
| Task | 任务输入 |
| Environment | 可操作环境(代码仓库/文件组) |
| Tools | 工具接口 |
| Trace | 每一步的工具调用、参数、返回 |
| Grader | 基于规则/脚本的结果判断 |
详见 agent-harness-mini、agent-eval-trace、agent-eval-grader。
Eval Case 设计
agent-eval-case-design 需要明确四个要素:任务目标、环境内容、工具范围、评分规则。案例见 agent-eval-case-design。
公开资料参考
- anthropic-agent-evals:区分 eval harness 与 agent harness
- agent-computer-interface:Agent-Computer Interface 对表现的影响
- terminal-bench:终端环境的隔离任务评测
- swe-bench:真实 issue → patch → 测试
核心洞察
- Harness 让评测从"主观感觉"变成"可分析记录"
- 不需要一开始就做完整平台——先串起 Task → Env → Tools → Trace → Grader 五要素
- 定位问题的精度提升:能区分是任务理解错误、工具选择错误、参数填写错误还是结果解读错误