SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

2.1 KiB

Raw Permalink Blame History

title, author, source, date, type, tags

title

author

source

date

type

tags

从零搭建 Mini Agent Harness

陈思州

Datawhale (微信公众号)

2026-05

article

agent-evaluation

harness

engineering

tutorial

从零搭建 Mini Agent Harness

Agent = model + harness — 把 Agentic model 放进一个可运行、可记录、可评分的小环境里。

核心问题

手动测试 Agent 只能看到最终回答，看不到它是否真的读了文件、调了什么工具、有没有凭空编造结论。agent-harness-mini 解决的就是这个——让 Agent 的每一步都留下可分析的执行记录。

五大模块

模块	职责
Task	任务输入
Environment	可操作环境（代码仓库/文件组）
Tools	工具接口
Trace	每一步的工具调用、参数、返回
Grader	基于规则/脚本的结果判断

详见 agent-harness-mini、agent-eval-trace、agent-eval-grader。

Eval Case 设计

agent-eval-case-design 需要明确四个要素：任务目标、环境内容、工具范围、评分规则。案例见 agent-eval-case-design。

公开资料参考

anthropic-agent-evals：区分 eval harness 与 agent harness
agent-computer-interface：Agent-Computer Interface 对表现的影响
terminal-bench：终端环境的隔离任务评测
swe-bench：真实 issue → patch → 测试

核心洞察

Harness 让评测从"主观感觉"变成"可分析记录"
不需要一开始就做完整平台——先串起 Task → Env → Tools → Trace → Grader 五要素
定位问题的精度提升：能区分是任务理解错误、工具选择错误、参数填写错误还是结果解读错误

相关页面