Files
myWiki/concepts/agent-harness-mini.md
2026-06-01 10:46:01 +08:00

1.7 KiB
Raw Blame History

title, created, type, tags, sources
title created type tags sources
Mini Agent Harness 2026-05-26 concept
agent-evaluation
harness
engineering
mini-agent-harness

Mini Agent Harness

最小可用的 Agent 评测框架:把 Agentic model 放进可运行、可记录、可评分的小环境。

定义

Mini Agent Harness 是一个轻量级的 Agent 评测框架,由五个核心模块组成:

  1. Task(任务输入):明确的任务描述
  2. Environment(可操作环境):代码仓库、文件组等封闭环境
  3. Tools工具接口Agent 可调用的工具列表
  4. agent-eval-trace(执行记录):每步工具调用、参数、返回值的完整记录
  5. agent-eval-grader(评分器):基于规则或测试脚本的结果判断

核心价值

手动测试 Mini Harness
只看到最终回答 记录完整执行过程
凭感觉判断好坏 按规则评分
问题难以定位 可分析到具体步骤

设计哲学

  • 先有骨架再扩展:第一版只需串起五要素
  • 可分析性优先:不是"好不好用",而是"哪里出问题"
  • 环境封闭:固定环境保证可复现性

与其他 Harness 概念的关系

参考