20260601
This commit is contained in:
39
concepts/anthropic-agent-evals.md
Normal file
39
concepts/anthropic-agent-evals.md
Normal file
@@ -0,0 +1,39 @@
|
||||
---
|
||||
title: "Anthropic Agent Evals"
|
||||
created: 2026-05-26
|
||||
type: concept
|
||||
tags: ["agent-evaluation", "anthropic", "benchmark", "framework"]
|
||||
sources: ["mini-agent-harness"]
|
||||
---
|
||||
|
||||
# Anthropic Agent Evals
|
||||
|
||||
> Anthropic 提出的 Agent 评测框架,区分 eval harness 与 agent harness,强调评估的是模型+harness 的整体效果。
|
||||
|
||||
## 核心区分
|
||||
|
||||
### Eval Harness
|
||||
- 跑评测、记录步骤
|
||||
- 评分和汇总结果
|
||||
- 不参与 Agent 的决策循环
|
||||
|
||||
### Agent Harness
|
||||
- 让模型作为 Agent 工作
|
||||
- 处理输入、编排工具调用
|
||||
- 返回结果
|
||||
|
||||
## 关键洞察
|
||||
|
||||
> 评估一个 Agent 时,你评到的是模型和 harness 一起工作的效果。
|
||||
|
||||
这意味着评测结果不能简单归因于"模型好坏",还需要考虑 harness 设计的质量。这与 [[agent-computer-interface|ACI]] 的观点一致——接口设计直接影响表现。
|
||||
|
||||
## 与 [[agent-harness-mini|Mini Harness]] 的关系
|
||||
|
||||
Anthropic 的框架是 mini harness 的理论基础之一:mini harness 的 Task/Env/Tools 对应 agent harness,Trace/Grader 对应 eval harness。
|
||||
|
||||
## 相关页面
|
||||
|
||||
- [[agent-harness-mini]] — 最小化实现
|
||||
- [[agent-harness-engineering]] — 工程化视角
|
||||
- [[agent-computer-interface]] — 接口设计的影响
|
||||
Reference in New Issue
Block a user