SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

1.2 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

Agent 评测范式转变（Paradigm Shift in Agent Evaluation）

2026-05-23

2026-05-23

concept

agent

evaluation

paradigm-shift

raw/articles/claw-eval-2026.md

high

Agent 评测范式转变

从三个维度发生的范式转移：从看最终答案 → 看完整过程；从展示能力 → 验证可靠性；从单次成功 → 稳定、可审计、可复核的任务完成。

旧范式 vs 新范式

维度	旧范式	新范式
评判对象	最终答案	完整执行过程
评估目标	能力展示	可靠性验证
时间尺度	单次成功	多次一致性
证据来源	文本输出	文本 + 日志 + 环境快照
评估方式	LLM Judge	混合评测管线

范式转变的驱动力

Agent 行为复杂性：可能给出合理结果但遗漏关键步骤
agent-process-evaluation：LLM Judge 漏掉 44% 安全违规
agent-capability-stability-gap：一次成功不代表可部署

相关概念

trace-native-evaluation — 踪迹原生评估
verification-evaluation — ETCLOVG 的 V 层
claw-eval — Claw-Eval 框架