47 lines
1.7 KiB
Markdown
47 lines
1.7 KiB
Markdown
---
|
||
title: "Agent Verification(Agent 验证与评估)"
|
||
created: 2026-05-30
|
||
updated: 2026-05-30
|
||
type: concept
|
||
tags: [agent, evaluation, verification, benchmark, failure-attribution]
|
||
sources: [[agent-harness-engineering-survey]]
|
||
confidence: high
|
||
---
|
||
|
||
# Agent Verification
|
||
|
||
> ETCLOVG 的 V 层:将任务和跟踪(trace)转化为评估、失败归因和回归反馈的系统化流程。
|
||
|
||
## 五阶段验证生命周期
|
||
|
||
### Stage 1: 任务与基准接地(Task and Benchmark Grounding)
|
||
- 问题:现有基准(SWE-bench、Terminal-Bench)关注最终结果而非过程
|
||
- 需要将任务明确化为可执行的可验证目标
|
||
|
||
### Stage 2: 执行前准备验证(Pre-execution Readiness)
|
||
- 检查环境完整性、工具可用性、上下文一致性
|
||
- 在生产部署中防止"静默失败"
|
||
|
||
### Stage 3: 受控执行与 Trace 捕获
|
||
- 捕获完整执行轨迹和所有中间状态
|
||
- 可回放性:同一 trace 可重新执行并比较
|
||
|
||
### Stage 4: 多层次评判与失败归因(Multi-level Judgement)
|
||
- 不只看最终对不对,还要分析**哪一步出了问题**
|
||
- 区分模型推理错误 vs 工具调用错误 vs 环境故障
|
||
- 需要归因到具体 Harness 层
|
||
|
||
### Stage 5: 持续回归与部署反馈
|
||
- 将评估集成到 CI/CD
|
||
- 防御 Harness 变更的意外退化
|
||
|
||
## 核心洞察
|
||
|
||
V 层使 Harness 工程从"经验性的手工调试"走向"可度量的工程学科"——每一个 Harness 设计决策都可以通过验证闭环来量化评估。
|
||
|
||
## 相关概念
|
||
- [[etclovg-taxonomy]] — 七层分类体系
|
||
- [[agent-evaluation-paradigm-shift]] — Agent 评测范式转变
|
||
- [[trace-native-evaluation]] — 从 Trace 诊断失败
|
||
- [[agent-harness-engineering]] — 总体框架
|