Files
myWiki/concepts/agent-eval-trace.md
2026-06-01 10:46:01 +08:00

1.7 KiB

title, created, type, tags, sources
title created type tags sources
Agent Eval Trace 2026-05-26 concept
agent-evaluation
trace
logging
mini-agent-harness

Agent Eval Trace

Agent 评测中每一步工具调用、参数、返回值的结构化执行记录。

定义

Trace 是 agent-harness-mini 的核心模块之一,记录了 Agent 在任务执行过程中的每一步操作。它是将 Agent 行为从"黑盒"变为"白盒"的关键。

结构

典型的 trace 条目:

{
  "case_id": "case_001",
  "trace": [
    {
      "tool": "list_files",
      "arguments": {"path": "."},
      "result": ["README.md", "config.md"]
    },
    {
      "tool": "read_file",
      "arguments": {"path": "README.md"},
      "result": "本项目支持本地启动、基础登录和配置管理。"
    }
  ],
  "answer": "当前 README 没有插件系统相关说明...",
  "grade": {"success": true, "reason": "..."}
}

Trace 的诊断价值

Trace 让问题定位变得精确:

  • 未调用关键工具 → 工具选择/理解问题
  • 调用了但参数错误 → 参数填写问题
  • 调用了但忽略了返回值 → 结果读取问题
  • 反复调用无关工具 → 轨迹效率问题
  • 答案超出工具返回内容 → 幻觉/编造问题

与日志的区别

维度 Trace 传统 Log
粒度 每个 tool call 应用级事件
结构化 JSON schema 自由格式
目的 评测分析 调试/监控
关联 与 case + grade 绑定 独立记录

相关页面