20260601
This commit is contained in:
47
concepts/agent-harness-mini.md
Normal file
47
concepts/agent-harness-mini.md
Normal file
@@ -0,0 +1,47 @@
|
||||
---
|
||||
title: "Mini Agent Harness"
|
||||
created: 2026-05-26
|
||||
type: concept
|
||||
tags: ["agent-evaluation", "harness", "engineering"]
|
||||
sources: ["mini-agent-harness"]
|
||||
---
|
||||
|
||||
# Mini Agent Harness
|
||||
|
||||
> 最小可用的 Agent 评测框架:把 Agentic model 放进可运行、可记录、可评分的小环境。
|
||||
|
||||
## 定义
|
||||
|
||||
Mini Agent Harness 是一个轻量级的 Agent 评测框架,由五个核心模块组成:
|
||||
|
||||
1. **Task**(任务输入):明确的任务描述
|
||||
2. **Environment**(可操作环境):代码仓库、文件组等封闭环境
|
||||
3. **Tools**(工具接口):Agent 可调用的工具列表
|
||||
4. **[[agent-eval-trace|Trace]]**(执行记录):每步工具调用、参数、返回值的完整记录
|
||||
5. **[[agent-eval-grader|Grader]]**(评分器):基于规则或测试脚本的结果判断
|
||||
|
||||
## 核心价值
|
||||
|
||||
| 手动测试 | Mini Harness |
|
||||
|---------|-------------|
|
||||
| 只看到最终回答 | 记录完整执行过程 |
|
||||
| 凭感觉判断好坏 | 按规则评分 |
|
||||
| 问题难以定位 | 可分析到具体步骤 |
|
||||
|
||||
## 设计哲学
|
||||
|
||||
- **先有骨架再扩展**:第一版只需串起五要素
|
||||
- **可分析性优先**:不是"好不好用",而是"哪里出问题"
|
||||
- **环境封闭**:固定环境保证可复现性
|
||||
|
||||
## 与其他 Harness 概念的关系
|
||||
|
||||
- [[agent-harness-engineering]]:更广义的 Agent harness 工程实践
|
||||
- [[harness-coupling-problem]]:harness 与模型耦合问题的理论分析
|
||||
- [[adaptive-harness-simplification]]:harness 自适应简化的策略
|
||||
- [[prompt-to-harness-evolution]]:从 prompt 到 harness 的演化路径
|
||||
|
||||
## 参考
|
||||
|
||||
- [[mini-agent-harness|从零搭建 Mini Agent Harness]] — 原始文章
|
||||
- [[anthropic-agent-evals]] — Anthropic 的评测框架
|
||||
Reference in New Issue
Block a user