1.3 KiB
1.3 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Agent Robustness Evaluation(Agent 鲁棒性评测) | 2026-05-23 | 2026-05-23 | concept |
|
|
medium |
Agent Robustness Evaluation
评测 Agent 面对接口失败、服务延迟、临时错误时,能否恢复并继续执行。鲁棒性是区分"能做"和"能稳定做"的关键维度。
Claw-Eval 的鲁棒性测试
通过错误注入模拟真实生产环境的不稳定性:
- HTTP 429(限流)
- HTTP 500(服务器错误)
- 延迟峰值
关键发现
- Pass@3 在错误注入后相对稳定(模型仍然"能做到")
- Pass^3 最高下降 24 个百分点(但不再"稳定做到")
- → agent-capability-stability-gap
鲁棒性的维度
- 重试策略:面对临时失败是否尝试恢复
- 降级策略:不可恢复时是否优雅降级
- 错误感知:是否能识别异常状态并调整行为
与 ETCLOVG 的关系
鲁棒性评测直接检验 execution-environment(E 层)沙箱的故障模式、lifecycle-orchestration(L 层)的恢复策略和 observability(O 层)的故障信号质量。