Files
myWiki/concepts/agent-verification.md
2026-06-01 10:46:01 +08:00

1.7 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
Agent VerificationAgent 验证与评估) 2026-05-30 2026-05-30 concept
agent
evaluation
verification
benchmark
failure-attribution
agent-harness-engineering-survey
high

Agent Verification

ETCLOVG 的 V 层将任务和跟踪trace转化为评估、失败归因和回归反馈的系统化流程。

五阶段验证生命周期

Stage 1: 任务与基准接地Task and Benchmark Grounding

  • 问题现有基准SWE-bench、Terminal-Bench关注最终结果而非过程
  • 需要将任务明确化为可执行的可验证目标

Stage 2: 执行前准备验证Pre-execution Readiness

  • 检查环境完整性、工具可用性、上下文一致性
  • 在生产部署中防止"静默失败"

Stage 3: 受控执行与 Trace 捕获

  • 捕获完整执行轨迹和所有中间状态
  • 可回放性:同一 trace 可重新执行并比较

Stage 4: 多层次评判与失败归因Multi-level Judgement

  • 不只看最终对不对,还要分析哪一步出了问题
  • 区分模型推理错误 vs 工具调用错误 vs 环境故障
  • 需要归因到具体 Harness 层

Stage 5: 持续回归与部署反馈

  • 将评估集成到 CI/CD
  • 防御 Harness 变更的意外退化

核心洞察

V 层使 Harness 工程从"经验性的手工调试"走向"可度量的工程学科"——每一个 Harness 设计决策都可以通过验证闭环来量化评估。

相关概念