This commit is contained in:
2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions

View File

@@ -0,0 +1,47 @@
---
title: "Mini Agent Harness"
created: 2026-05-26
type: concept
tags: ["agent-evaluation", "harness", "engineering"]
sources: ["mini-agent-harness"]
---
# Mini Agent Harness
> 最小可用的 Agent 评测框架:把 Agentic model 放进可运行、可记录、可评分的小环境。
## 定义
Mini Agent Harness 是一个轻量级的 Agent 评测框架,由五个核心模块组成:
1. **Task**(任务输入):明确的任务描述
2. **Environment**(可操作环境):代码仓库、文件组等封闭环境
3. **Tools**工具接口Agent 可调用的工具列表
4. **[[agent-eval-trace|Trace]]**(执行记录):每步工具调用、参数、返回值的完整记录
5. **[[agent-eval-grader|Grader]]**(评分器):基于规则或测试脚本的结果判断
## 核心价值
| 手动测试 | Mini Harness |
|---------|-------------|
| 只看到最终回答 | 记录完整执行过程 |
| 凭感觉判断好坏 | 按规则评分 |
| 问题难以定位 | 可分析到具体步骤 |
## 设计哲学
- **先有骨架再扩展**:第一版只需串起五要素
- **可分析性优先**:不是"好不好用",而是"哪里出问题"
- **环境封闭**:固定环境保证可复现性
## 与其他 Harness 概念的关系
- [[agent-harness-engineering]]:更广义的 Agent harness 工程实践
- [[harness-coupling-problem]]harness 与模型耦合问题的理论分析
- [[adaptive-harness-simplification]]harness 自适应简化的策略
- [[prompt-to-harness-evolution]]:从 prompt 到 harness 的演化路径
## 参考
- [[mini-agent-harness|从零搭建 Mini Agent Harness]] — 原始文章
- [[anthropic-agent-evals]] — Anthropic 的评测框架