Agent Eval Case Design

设计 Agent 评测用例的四要素：任务、环境、工具、评分规则。

四要素

Task：明确的任务描述，不模棱两可
Environment：封闭、可复现的执行环境
Tools：Agent 可用的工具白名单
Grader：agent-eval-grader——必须可自动执行

示例

{
  "id": "case_001",
  "task": "判断项目是否支持插件系统",
  "environment": {
    "files": {
      "README.md": "本项目支持本地启动、基础登录和配置管理。",
      "config.md": "配置项包括 port、theme、log_level。"
    }
  },
  "tools": ["list_files", "read_file"],
  "grader": {
    "must_read": ["README.md"],
    "answer_should_include": "不能确认支持插件系统",
    "answer_should_not_include": "支持插件系统"
  }
}

设计原则

环境可控：每个 case 在自己的隔离环境中运行
任务不歧义：避免开放式解读
评分自动化：不依赖人工判断
渐进难度：从简单封闭到复杂开放

常见测试维度

维度	测试内容
工具选择	Agent 是否为任务选择了正确的工具
文件读取	是否读取了正确的文件
参数正确性	工具调用参数是否合理
结果使用	回答是否基于工具返回的实际内容
步骤效率	是否有冗余工具调用

1.7 KiB Raw Blame History Unescape Escape

Agent Eval Case Design

四要素

示例

设计原则

常见测试维度

相关页面

1.7 KiB

Raw Blame History