Files
myWiki/concepts/agent-verification.md
2026-06-01 10:46:01 +08:00

47 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Agent VerificationAgent 验证与评估)"
created: 2026-05-30
updated: 2026-05-30
type: concept
tags: [agent, evaluation, verification, benchmark, failure-attribution]
sources: [[agent-harness-engineering-survey]]
confidence: high
---
# Agent Verification
> ETCLOVG 的 V 层将任务和跟踪trace转化为评估、失败归因和回归反馈的系统化流程。
## 五阶段验证生命周期
### Stage 1: 任务与基准接地Task and Benchmark Grounding
- 问题现有基准SWE-bench、Terminal-Bench关注最终结果而非过程
- 需要将任务明确化为可执行的可验证目标
### Stage 2: 执行前准备验证Pre-execution Readiness
- 检查环境完整性、工具可用性、上下文一致性
- 在生产部署中防止"静默失败"
### Stage 3: 受控执行与 Trace 捕获
- 捕获完整执行轨迹和所有中间状态
- 可回放性:同一 trace 可重新执行并比较
### Stage 4: 多层次评判与失败归因Multi-level Judgement
- 不只看最终对不对,还要分析**哪一步出了问题**
- 区分模型推理错误 vs 工具调用错误 vs 环境故障
- 需要归因到具体 Harness 层
### Stage 5: 持续回归与部署反馈
- 将评估集成到 CI/CD
- 防御 Harness 变更的意外退化
## 核心洞察
V 层使 Harness 工程从"经验性的手工调试"走向"可度量的工程学科"——每一个 Harness 设计决策都可以通过验证闭环来量化评估。
## 相关概念
- [[etclovg-taxonomy]] — 七层分类体系
- [[agent-evaluation-paradigm-shift]] — Agent 评测范式转变
- [[trace-native-evaluation]] — 从 Trace 诊断失败
- [[agent-harness-engineering]] — 总体框架