20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/agent-evaluation-paradigm-shift.md
+++ b/concepts/agent-evaluation-paradigm-shift.md
@@ -0,0 +1,35 @@
+---
+title: "Agent 评测范式转变（Paradigm Shift in Agent Evaluation）"
+created: 2026-05-23
+updated: 2026-05-23
+type: concept
+tags: [agent, evaluation, paradigm-shift]
+sources: [raw/articles/claw-eval-2026.md]
+confidence: high
+---
+
+# Agent 评测范式转变
+
+> 从三个维度发生的范式转移：从看最终答案 → 看完整过程；从展示能力 → 验证可靠性；从单次成功 → 稳定、可审计、可复核的任务完成。
+
+## 旧范式 vs 新范式
+
+| 维度 | 旧范式 | 新范式 |
+|------|--------|--------|
+| 评判对象 | 最终答案 | 完整执行过程 |
+| 评估目标 | 能力展示 | 可靠性验证 |
+| 时间尺度 | 单次成功 | 多次一致性 |
+| 证据来源 | 文本输出 | 文本 + 日志 + 环境快照 |
+| 评估方式 | LLM Judge | 混合评测管线 |
+
+## 范式转变的驱动力
+
+1. Agent 行为复杂性：可能给出合理结果但遗漏关键步骤
+2. **[[agent-process-evaluation|只看对话轨迹不可靠]]**：LLM Judge 漏掉 44% 安全违规
+3. **[[agent-capability-stability-gap|能力 ≠ 稳定性]]**：一次成功不代表可部署
+
+## 相关概念
+
+- [[trace-native-evaluation]] — 踪迹原生评估
+- [[verification-evaluation]] — ETCLOVG 的 V 层
+- [[claw-eval]] — Claw-Eval 框架