SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

1.7 KiB

Raw Blame History

title, created, type, tags, sources

title

created

type

tags

sources

Mini Agent Harness

2026-05-26

concept

agent-evaluation

harness

engineering

mini-agent-harness

Mini Agent Harness

最小可用的 Agent 评测框架：把 Agentic model 放进可运行、可记录、可评分的小环境。

定义

Mini Agent Harness 是一个轻量级的 Agent 评测框架，由五个核心模块组成：

Task（任务输入）：明确的任务描述
Environment（可操作环境）：代码仓库、文件组等封闭环境
Tools（工具接口）：Agent 可调用的工具列表
agent-eval-trace（执行记录）：每步工具调用、参数、返回值的完整记录
agent-eval-grader（评分器）：基于规则或测试脚本的结果判断

核心价值

手动测试	Mini Harness
只看到最终回答	记录完整执行过程
凭感觉判断好坏	按规则评分
问题难以定位	可分析到具体步骤

设计哲学

先有骨架再扩展：第一版只需串起五要素
可分析性优先：不是"好不好用"，而是"哪里出问题"
环境封闭：固定环境保证可复现性

与其他 Harness 概念的关系

agent-harness-engineering：更广义的 Agent harness 工程实践
harness-coupling-problem：harness 与模型耦合问题的理论分析
adaptive-harness-simplification：harness 自适应简化的策略
prompt-to-harness-evolution：从 prompt 到 harness 的演化路径

参考

mini-agent-harness — 原始文章
anthropic-agent-evals — Anthropic 的评测框架