Files
myWiki/concepts/agent-eval-grader.md
2026-06-01 10:46:01 +08:00

1.4 KiB
Raw Blame History

title, created, type, tags, sources
title created type tags sources
Agent Eval Grader 2026-05-26 concept
agent-evaluation
scoring
grader
mini-agent-harness

Agent Eval Grader

Agent 评测中的评分模块——基于规则或测试脚本判断任务执行结果。

定义

Grader 是 agent-harness-mini 的最终判断模块。它接收 agent-eval-trace 和最终答案输出结构化的评分结果success/fail + reason

评分策略演进

Level 1规则匹配本文推荐

{
  "must_read": ["README.md"],
  "answer_should_include": "不能确认支持插件系统",
  "answer_should_not_include": "支持插件系统"
}

Level 2测试脚本

# 运行测试验证 Agent 的代码修改是否通过
pytest tests/

Level 3LLM-as-Judge

使用 LLM 评估复杂输出(需注意评估者偏差)

Level 4多维度评分

任务完成度 + 工具使用效率 + 步骤冗余度 + 幻觉检测

设计原则

  • 可检查性:评分规则必须明确可执行
  • 可解释性:失败必须给出 reason
  • 渐进复杂度:从规则开始,按需升级

相关页面