Files
myWiki/concepts/agent-evaluation-paradigm-shift.md
2026-06-01 10:46:01 +08:00

1.2 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
Agent 评测范式转变Paradigm Shift in Agent Evaluation 2026-05-23 2026-05-23 concept
agent
evaluation
paradigm-shift
raw/articles/claw-eval-2026.md
high

Agent 评测范式转变

从三个维度发生的范式转移:从看最终答案 → 看完整过程;从展示能力 → 验证可靠性;从单次成功 → 稳定、可审计、可复核的任务完成。

旧范式 vs 新范式

维度 旧范式 新范式
评判对象 最终答案 完整执行过程
评估目标 能力展示 可靠性验证
时间尺度 单次成功 多次一致性
证据来源 文本输出 文本 + 日志 + 环境快照
评估方式 LLM Judge 混合评测管线

范式转变的驱动力

  1. Agent 行为复杂性:可能给出合理结果但遗漏关键步骤
  2. agent-process-evaluationLLM Judge 漏掉 44% 安全违规
  3. agent-capability-stability-gap:一次成功不代表可部署

相关概念