Files
myWiki/concepts/agent-harness-mini.md
2026-06-01 10:46:01 +08:00

48 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Mini Agent Harness"
created: 2026-05-26
type: concept
tags: ["agent-evaluation", "harness", "engineering"]
sources: ["mini-agent-harness"]
---
# Mini Agent Harness
> 最小可用的 Agent 评测框架:把 Agentic model 放进可运行、可记录、可评分的小环境。
## 定义
Mini Agent Harness 是一个轻量级的 Agent 评测框架,由五个核心模块组成:
1. **Task**(任务输入):明确的任务描述
2. **Environment**(可操作环境):代码仓库、文件组等封闭环境
3. **Tools**工具接口Agent 可调用的工具列表
4. **[[agent-eval-trace|Trace]]**(执行记录):每步工具调用、参数、返回值的完整记录
5. **[[agent-eval-grader|Grader]]**(评分器):基于规则或测试脚本的结果判断
## 核心价值
| 手动测试 | Mini Harness |
|---------|-------------|
| 只看到最终回答 | 记录完整执行过程 |
| 凭感觉判断好坏 | 按规则评分 |
| 问题难以定位 | 可分析到具体步骤 |
## 设计哲学
- **先有骨架再扩展**:第一版只需串起五要素
- **可分析性优先**:不是"好不好用",而是"哪里出问题"
- **环境封闭**:固定环境保证可复现性
## 与其他 Harness 概念的关系
- [[agent-harness-engineering]]:更广义的 Agent harness 工程实践
- [[harness-coupling-problem]]harness 与模型耦合问题的理论分析
- [[adaptive-harness-simplification]]harness 自适应简化的策略
- [[prompt-to-harness-evolution]]:从 prompt 到 harness 的演化路径
## 参考
- [[mini-agent-harness|从零搭建 Mini Agent Harness]] — 原始文章
- [[anthropic-agent-evals]] — Anthropic 的评测框架