1.2 KiB
1.2 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| Agent 评测范式转变(Paradigm Shift in Agent Evaluation) | 2026-05-23 | 2026-05-23 | concept |
|
|
high |
Agent 评测范式转变
从三个维度发生的范式转移:从看最终答案 → 看完整过程;从展示能力 → 验证可靠性;从单次成功 → 稳定、可审计、可复核的任务完成。
旧范式 vs 新范式
| 维度 | 旧范式 | 新范式 |
|---|---|---|
| 评判对象 | 最终答案 | 完整执行过程 |
| 评估目标 | 能力展示 | 可靠性验证 |
| 时间尺度 | 单次成功 | 多次一致性 |
| 证据来源 | 文本输出 | 文本 + 日志 + 环境快照 |
| 评估方式 | LLM Judge | 混合评测管线 |
范式转变的驱动力
- Agent 行为复杂性:可能给出合理结果但遗漏关键步骤
- agent-process-evaluation:LLM Judge 漏掉 44% 安全违规
- agent-capability-stability-gap:一次成功不代表可部署
相关概念
- trace-native-evaluation — 踪迹原生评估
- verification-evaluation — ETCLOVG 的 V 层
- claw-eval — Claw-Eval 框架