20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/agent-harness-mini.md
+++ b/concepts/agent-harness-mini.md
@@ -0,0 +1,47 @@
+---
+title: "Mini Agent Harness"
+created: 2026-05-26
+type: concept
+tags: ["agent-evaluation", "harness", "engineering"]
+sources: ["mini-agent-harness"]
+---
+
+# Mini Agent Harness
+
+> 最小可用的 Agent 评测框架：把 Agentic model 放进可运行、可记录、可评分的小环境。
+
+## 定义
+
+Mini Agent Harness 是一个轻量级的 Agent 评测框架，由五个核心模块组成：
+
+1. **Task**（任务输入）：明确的任务描述
+2. **Environment**（可操作环境）：代码仓库、文件组等封闭环境
+3. **Tools**（工具接口）：Agent 可调用的工具列表
+4. **[[agent-eval-trace|Trace]]**（执行记录）：每步工具调用、参数、返回值的完整记录
+5. **[[agent-eval-grader|Grader]]**（评分器）：基于规则或测试脚本的结果判断
+
+## 核心价值
+
+| 手动测试 | Mini Harness |
+|---------|-------------|
+| 只看到最终回答 | 记录完整执行过程 |
+| 凭感觉判断好坏 | 按规则评分 |
+| 问题难以定位 | 可分析到具体步骤 |
+
+## 设计哲学
+
+- **先有骨架再扩展**：第一版只需串起五要素
+- **可分析性优先**：不是"好不好用"，而是"哪里出问题"
+- **环境封闭**：固定环境保证可复现性
+
+## 与其他 Harness 概念的关系
+
+- [[agent-harness-engineering]]：更广义的 Agent harness 工程实践
+- [[harness-coupling-problem]]：harness 与模型耦合问题的理论分析
+- [[adaptive-harness-simplification]]：harness 自适应简化的策略
+- [[prompt-to-harness-evolution]]：从 prompt 到 harness 的演化路径
+
+## 参考
+
+- [[mini-agent-harness|从零搭建 Mini Agent Harness]] — 原始文章
+- [[anthropic-agent-evals]] — Anthropic 的评测框架