Files
myWiki/concepts/anthropic-agent-evals.md
2026-06-01 10:46:01 +08:00

40 lines
1.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Anthropic Agent Evals"
created: 2026-05-26
type: concept
tags: ["agent-evaluation", "anthropic", "benchmark", "framework"]
sources: ["mini-agent-harness"]
---
# Anthropic Agent Evals
> Anthropic 提出的 Agent 评测框架,区分 eval harness 与 agent harness强调评估的是模型+harness 的整体效果。
## 核心区分
### Eval Harness
- 跑评测、记录步骤
- 评分和汇总结果
- 不参与 Agent 的决策循环
### Agent Harness
- 让模型作为 Agent 工作
- 处理输入、编排工具调用
- 返回结果
## 关键洞察
> 评估一个 Agent 时,你评到的是模型和 harness 一起工作的效果。
这意味着评测结果不能简单归因于"模型好坏",还需要考虑 harness 设计的质量。这与 [[agent-computer-interface|ACI]] 的观点一致——接口设计直接影响表现。
## 与 [[agent-harness-mini|Mini Harness]] 的关系
Anthropic 的框架是 mini harness 的理论基础之一mini harness 的 Task/Env/Tools 对应 agent harnessTrace/Grader 对应 eval harness。
## 相关页面
- [[agent-harness-mini]] — 最小化实现
- [[agent-harness-engineering]] — 工程化视角
- [[agent-computer-interface]] — 接口设计的影响