1.2 KiB
1.2 KiB
title, created, type, tags, sources
| title | created | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|
| Anthropic Agent Evals | 2026-05-26 | concept |
|
|
Anthropic Agent Evals
Anthropic 提出的 Agent 评测框架,区分 eval harness 与 agent harness,强调评估的是模型+harness 的整体效果。
核心区分
Eval Harness
- 跑评测、记录步骤
- 评分和汇总结果
- 不参与 Agent 的决策循环
Agent Harness
- 让模型作为 Agent 工作
- 处理输入、编排工具调用
- 返回结果
关键洞察
评估一个 Agent 时,你评到的是模型和 harness 一起工作的效果。
这意味着评测结果不能简单归因于"模型好坏",还需要考虑 harness 设计的质量。这与 agent-computer-interface 的观点一致——接口设计直接影响表现。
与 agent-harness-mini 的关系
Anthropic 的框架是 mini harness 的理论基础之一:mini harness 的 Task/Env/Tools 对应 agent harness,Trace/Grader 对应 eval harness。
相关页面
- agent-harness-mini — 最小化实现
- agent-harness-engineering — 工程化视角
- agent-computer-interface — 接口设计的影响