Files
myWiki/concepts/agent-evaluation-paradigm-shift.md
2026-06-01 10:46:01 +08:00

36 lines
1.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Agent 评测范式转变Paradigm Shift in Agent Evaluation"
created: 2026-05-23
updated: 2026-05-23
type: concept
tags: [agent, evaluation, paradigm-shift]
sources: [raw/articles/claw-eval-2026.md]
confidence: high
---
# Agent 评测范式转变
> 从三个维度发生的范式转移:从看最终答案 → 看完整过程;从展示能力 → 验证可靠性;从单次成功 → 稳定、可审计、可复核的任务完成。
## 旧范式 vs 新范式
| 维度 | 旧范式 | 新范式 |
|------|--------|--------|
| 评判对象 | 最终答案 | 完整执行过程 |
| 评估目标 | 能力展示 | 可靠性验证 |
| 时间尺度 | 单次成功 | 多次一致性 |
| 证据来源 | 文本输出 | 文本 + 日志 + 环境快照 |
| 评估方式 | LLM Judge | 混合评测管线 |
## 范式转变的驱动力
1. Agent 行为复杂性:可能给出合理结果但遗漏关键步骤
2. **[[agent-process-evaluation|只看对话轨迹不可靠]]**LLM Judge 漏掉 44% 安全违规
3. **[[agent-capability-stability-gap|能力 ≠ 稳定性]]**:一次成功不代表可部署
## 相关概念
- [[trace-native-evaluation]] — 踪迹原生评估
- [[verification-evaluation]] — ETCLOVG 的 V 层
- [[claw-eval]] — Claw-Eval 框架