Files
myWiki/concepts/agent-robustness-evaluation.md
2026-06-01 10:46:01 +08:00

1.3 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
Agent Robustness EvaluationAgent 鲁棒性评测) 2026-05-23 2026-05-23 concept
agent
robustness
evaluation
fault-tolerance
raw/articles/claw-eval-2026.md
medium

Agent Robustness Evaluation

评测 Agent 面对接口失败、服务延迟、临时错误时,能否恢复并继续执行。鲁棒性是区分"能做"和"能稳定做"的关键维度。

Claw-Eval 的鲁棒性测试

通过错误注入模拟真实生产环境的不稳定性:

  • HTTP 429限流
  • HTTP 500服务器错误
  • 延迟峰值

关键发现

  • Pass@3 在错误注入后相对稳定(模型仍然"能做到"
  • Pass^3 最高下降 24 个百分点(但不再"稳定做到"
  • agent-capability-stability-gap

鲁棒性的维度

  • 重试策略:面对临时失败是否尝试恢复
  • 降级策略:不可恢复时是否优雅降级
  • 错误感知:是否能识别异常状态并调整行为

与 ETCLOVG 的关系

鲁棒性评测直接检验 execution-environmentE 层)沙箱的故障模式、lifecycle-orchestrationL 层)的恢复策略和 observabilityO 层)的故障信号质量。

相关概念