Files
myWiki/concepts/agent-eval-case-design.md
2026-06-01 10:46:01 +08:00

63 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Agent Eval Case Design"
created: 2026-05-26
type: concept
tags: ["agent-evaluation", "test-design", "benchmark"]
sources: ["mini-agent-harness"]
---
# Agent Eval Case Design
> 设计 Agent 评测用例的四要素:任务、环境、工具、评分规则。
## 四要素
1. **Task**:明确的任务描述,不模棱两可
2. **Environment**:封闭、可复现的执行环境
3. **Tools**Agent 可用的工具白名单
4. **Grader**[[agent-eval-grader|评分规则]]——必须可自动执行
## 示例
```json
{
"id": "case_001",
"task": "判断项目是否支持插件系统",
"environment": {
"files": {
"README.md": "本项目支持本地启动、基础登录和配置管理。",
"config.md": "配置项包括 port、theme、log_level。"
}
},
"tools": ["list_files", "read_file"],
"grader": {
"must_read": ["README.md"],
"answer_should_include": "不能确认支持插件系统",
"answer_should_not_include": "支持插件系统"
}
}
```
## 设计原则
- **环境可控**:每个 case 在自己的隔离环境中运行
- **任务不歧义**:避免开放式解读
- **评分自动化**:不依赖人工判断
- **渐进难度**:从简单封闭到复杂开放
## 常见测试维度
| 维度 | 测试内容 |
|------|---------|
| 工具选择 | Agent 是否为任务选择了正确的工具 |
| 文件读取 | 是否读取了正确的文件 |
| 参数正确性 | 工具调用参数是否合理 |
| 结果使用 | 回答是否基于工具返回的实际内容 |
| 步骤效率 | 是否有冗余工具调用 |
## 相关页面
- [[agent-eval-trace]] — case 执行后的追踪记录
- [[agent-eval-grader]] — case 中的评分逻辑
- [[agent-harness-mini]] — 运行 case 的 harness 框架