--- title: "Deterministic Agent Failures(确定性 Agent 失败分类)" created: 2026-06-11 updated: 2026-06-11 type: concept tags: [agent, failure-analysis, deterministic, taxonomy] sources: [raw/papers/xu-life-harness-runtime-adaptation-2026.md] --- # Deterministic Agent Failures > 在确定性、规则驱动的 Agent 环境中,失败可以系统性地分类为四大类型——不同类型的失败需要不同阶段的接口干预。 ## 四类失败 基于 Life-Harness 在 Qwen3-4B-Instruct 上的手动失败诊断(393 个失败 episode): | 类型 | 占比 | 定义 | 对应 Harness 层 | |------|------|------|----------------| | **动作实现失败** | ~23% | 模型意图合理,但动作格式不可执行(自由文本代替 tool call、缺失参数) | [[action-realization-layer\|动作实现层]] | | **环境契约不匹配** | ~33% | 动作语法正确但违反工具使用的调用协议或策略约束 | [[environment-contract-layer\|环境契约层]] | | **轨迹退化** | ~17% | 单步有效但整体陷入重复、停滞或无效恢复循环 | [[trajectory-regulation-layer\|轨迹调控层]] | | **一般推理失败** | ~27% | 推理、计算或决策本身错误,尽管基本遵循了协议 | 超出 Harness 范围,需模型改进 | ## 关键洞察 四类失败的分布**因环境而异**——不同 benchmark 的主导失败模式差异很大: - ALFWorld:动作实现 + 轨迹退化占主导 - WebShop:环境契约匹配更关键 - OS/DBBench:分布更均匀 这意味着:**没有万能的一层 Harness**——需要多层协同覆盖。 ## 诊断方法 对每个失败 episode,按最早主导瓶颈分配类别(见论文 Appendix A.1 的详细分类规则)。 ## 参考 - [[xu-life-harness|Life-Harness 论文]] - [[runtime-harness-adaptation|Runtime Harness Adaptation]] - [[harness-evolution|Harness Evolution]]