--- title: "Mini Agent Harness" created: 2026-05-26 type: concept tags: ["agent-evaluation", "harness", "engineering"] sources: ["mini-agent-harness"] --- # Mini Agent Harness > 最小可用的 Agent 评测框架:把 Agentic model 放进可运行、可记录、可评分的小环境。 ## 定义 Mini Agent Harness 是一个轻量级的 Agent 评测框架,由五个核心模块组成: 1. **Task**(任务输入):明确的任务描述 2. **Environment**(可操作环境):代码仓库、文件组等封闭环境 3. **Tools**(工具接口):Agent 可调用的工具列表 4. **[[agent-eval-trace|Trace]]**(执行记录):每步工具调用、参数、返回值的完整记录 5. **[[agent-eval-grader|Grader]]**(评分器):基于规则或测试脚本的结果判断 ## 核心价值 | 手动测试 | Mini Harness | |---------|-------------| | 只看到最终回答 | 记录完整执行过程 | | 凭感觉判断好坏 | 按规则评分 | | 问题难以定位 | 可分析到具体步骤 | ## 设计哲学 - **先有骨架再扩展**:第一版只需串起五要素 - **可分析性优先**:不是"好不好用",而是"哪里出问题" - **环境封闭**:固定环境保证可复现性 ## 与其他 Harness 概念的关系 - [[agent-harness-engineering]]:更广义的 Agent harness 工程实践 - [[harness-coupling-problem]]:harness 与模型耦合问题的理论分析 - [[adaptive-harness-simplification]]:harness 自适应简化的策略 - [[prompt-to-harness-evolution]]:从 prompt 到 harness 的演化路径 ## 参考 - [[mini-agent-harness|从零搭建 Mini Agent Harness]] — 原始文章 - [[anthropic-agent-evals]] — Anthropic 的评测框架