Anthropic Agent Evals

Anthropic 提出的 Agent 评测框架，区分 eval harness 与 agent harness，强调评估的是模型+harness 的整体效果。

核心区分

评估一个 Agent 时，你评到的是模型和 harness 一起工作的效果。

这意味着评测结果不能简单归因于"模型好坏"，还需要考虑 harness 设计的质量。这与 agent-computer-interface 的观点一致——接口设计直接影响表现。

Anthropic 的框架是 mini harness 的理论基础之一：mini harness 的 Task/Env/Tools 对应 agent harness，Trace/Grader 对应 eval harness。