--- title: "Agent 评测范式转变(Paradigm Shift in Agent Evaluation)" created: 2026-05-23 updated: 2026-05-23 type: concept tags: [agent, evaluation, paradigm-shift] sources: [raw/articles/claw-eval-2026.md] confidence: high --- # Agent 评测范式转变 > 从三个维度发生的范式转移:从看最终答案 → 看完整过程;从展示能力 → 验证可靠性;从单次成功 → 稳定、可审计、可复核的任务完成。 ## 旧范式 vs 新范式 | 维度 | 旧范式 | 新范式 | |------|--------|--------| | 评判对象 | 最终答案 | 完整执行过程 | | 评估目标 | 能力展示 | 可靠性验证 | | 时间尺度 | 单次成功 | 多次一致性 | | 证据来源 | 文本输出 | 文本 + 日志 + 环境快照 | | 评估方式 | LLM Judge | 混合评测管线 | ## 范式转变的驱动力 1. Agent 行为复杂性:可能给出合理结果但遗漏关键步骤 2. **[[agent-process-evaluation|只看对话轨迹不可靠]]**:LLM Judge 漏掉 44% 安全违规 3. **[[agent-capability-stability-gap|能力 ≠ 稳定性]]**:一次成功不代表可部署 ## 相关概念 - [[trace-native-evaluation]] — 踪迹原生评估 - [[verification-evaluation]] — ETCLOVG 的 V 层 - [[claw-eval]] — Claw-Eval 框架