1.7 KiB
1.7 KiB
title, created, type, tags, sources
| title | created | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|
| Agent Eval Case Design | 2026-05-26 | concept |
|
|
Agent Eval Case Design
设计 Agent 评测用例的四要素:任务、环境、工具、评分规则。
四要素
- Task:明确的任务描述,不模棱两可
- Environment:封闭、可复现的执行环境
- Tools:Agent 可用的工具白名单
- Grader:agent-eval-grader——必须可自动执行
示例
{
"id": "case_001",
"task": "判断项目是否支持插件系统",
"environment": {
"files": {
"README.md": "本项目支持本地启动、基础登录和配置管理。",
"config.md": "配置项包括 port、theme、log_level。"
}
},
"tools": ["list_files", "read_file"],
"grader": {
"must_read": ["README.md"],
"answer_should_include": "不能确认支持插件系统",
"answer_should_not_include": "支持插件系统"
}
}
设计原则
- 环境可控:每个 case 在自己的隔离环境中运行
- 任务不歧义:避免开放式解读
- 评分自动化:不依赖人工判断
- 渐进难度:从简单封闭到复杂开放
常见测试维度
| 维度 | 测试内容 |
|---|---|
| 工具选择 | Agent 是否为任务选择了正确的工具 |
| 文件读取 | 是否读取了正确的文件 |
| 参数正确性 | 工具调用参数是否合理 |
| 结果使用 | 回答是否基于工具返回的实际内容 |
| 步骤效率 | 是否有冗余工具调用 |
相关页面
- agent-eval-trace — case 执行后的追踪记录
- agent-eval-grader — case 中的评分逻辑
- agent-harness-mini — 运行 case 的 harness 框架