20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/agent-verification.md
+++ b/concepts/agent-verification.md
@@ -0,0 +1,46 @@
+---
+title: "Agent Verification（Agent 验证与评估）"
+created: 2026-05-30
+updated: 2026-05-30
+type: concept
+tags: [agent, evaluation, verification, benchmark, failure-attribution]
+sources: [[agent-harness-engineering-survey]]
+confidence: high
+---
+
+# Agent Verification
+
+> ETCLOVG 的 V 层：将任务和跟踪（trace）转化为评估、失败归因和回归反馈的系统化流程。
+
+## 五阶段验证生命周期
+
+### Stage 1: 任务与基准接地（Task and Benchmark Grounding）
+- 问题：现有基准（SWE-bench、Terminal-Bench）关注最终结果而非过程
+- 需要将任务明确化为可执行的可验证目标
+
+### Stage 2: 执行前准备验证（Pre-execution Readiness）
+- 检查环境完整性、工具可用性、上下文一致性
+- 在生产部署中防止"静默失败"
+
+### Stage 3: 受控执行与 Trace 捕获
+- 捕获完整执行轨迹和所有中间状态
+- 可回放性：同一 trace 可重新执行并比较
+
+### Stage 4: 多层次评判与失败归因（Multi-level Judgement）
+- 不只看最终对不对，还要分析**哪一步出了问题**
+- 区分模型推理错误 vs 工具调用错误 vs 环境故障
+- 需要归因到具体 Harness 层
+
+### Stage 5: 持续回归与部署反馈
+- 将评估集成到 CI/CD
+- 防御 Harness 变更的意外退化
+
+## 核心洞察
+
+V 层使 Harness 工程从"经验性的手工调试"走向"可度量的工程学科"——每一个 Harness 设计决策都可以通过验证闭环来量化评估。
+
+## 相关概念
+- [[etclovg-taxonomy]] — 七层分类体系
+- [[agent-evaluation-paradigm-shift]] — Agent 评测范式转变
+- [[trace-native-evaluation]] — 从 Trace 诊断失败
+- [[agent-harness-engineering]] — 总体框架