20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/anthropic-agent-evals.md
+++ b/concepts/anthropic-agent-evals.md
@@ -0,0 +1,39 @@
+---
+title: "Anthropic Agent Evals"
+created: 2026-05-26
+type: concept
+tags: ["agent-evaluation", "anthropic", "benchmark", "framework"]
+sources: ["mini-agent-harness"]
+---
+
+# Anthropic Agent Evals
+
+> Anthropic 提出的 Agent 评测框架，区分 eval harness 与 agent harness，强调评估的是模型+harness 的整体效果。
+
+## 核心区分
+
+### Eval Harness
+- 跑评测、记录步骤
+- 评分和汇总结果
+- 不参与 Agent 的决策循环
+
+### Agent Harness
+- 让模型作为 Agent 工作
+- 处理输入、编排工具调用
+- 返回结果
+
+## 关键洞察
+
+> 评估一个 Agent 时，你评到的是模型和 harness 一起工作的效果。
+
+这意味着评测结果不能简单归因于"模型好坏"，还需要考虑 harness 设计的质量。这与 [[agent-computer-interface|ACI]] 的观点一致——接口设计直接影响表现。
+
+## 与 [[agent-harness-mini|Mini Harness]] 的关系
+
+Anthropic 的框架是 mini harness 的理论基础之一：mini harness 的 Task/Env/Tools 对应 agent harness，Trace/Grader 对应 eval harness。
+
+## 相关页面
+
+- [[agent-harness-mini]] — 最小化实现
+- [[agent-harness-engineering]] — 工程化视角
+- [[agent-computer-interface]] — 接口设计的影响