myWiki/concepts/agent-harness-mini.md

---
title: "Mini Agent Harness"
created: 2026-05-26
type: concept
tags: ["agent-evaluation", "harness", "engineering"]
sources: ["mini-agent-harness"]
---

# Mini Agent Harness

> 最小可用的 Agent 评测框架：把 Agentic model 放进可运行、可记录、可评分的小环境。

## 定义

Mini Agent Harness 是一个轻量级的 Agent 评测框架，由五个核心模块组成：

1. **Task**（任务输入）：明确的任务描述
2. **Environment**（可操作环境）：代码仓库、文件组等封闭环境
3. **Tools**（工具接口）：Agent 可调用的工具列表
4. **[[agent-eval-trace|Trace]]**（执行记录）：每步工具调用、参数、返回值的完整记录
5. **[[agent-eval-grader|Grader]]**（评分器）：基于规则或测试脚本的结果判断

## 核心价值

| 手动测试 | Mini Harness |
|---------|-------------|
| 只看到最终回答 | 记录完整执行过程 |
| 凭感觉判断好坏 | 按规则评分 |
| 问题难以定位 | 可分析到具体步骤 |

## 设计哲学

- **先有骨架再扩展**：第一版只需串起五要素
- **可分析性优先**：不是"好不好用"，而是"哪里出问题"
- **环境封闭**：固定环境保证可复现性

## 与其他 Harness 概念的关系

- [[agent-harness-engineering]]：更广义的 Agent harness 工程实践
- [[harness-coupling-problem]]：harness 与模型耦合问题的理论分析
- [[adaptive-harness-simplification]]：harness 自适应简化的策略
- [[prompt-to-harness-evolution]]：从 prompt 到 harness 的演化路径

## 参考

- [[mini-agent-harness|从零搭建 Mini Agent Harness]] — 原始文章
- [[anthropic-agent-evals]] — Anthropic 的评测框架