Deterministic Agent Failures

在确定性、规则驱动的 Agent 环境中，失败可以系统性地分类为四大类型——不同类型的失败需要不同阶段的接口干预。

四类失败

基于 Life-Harness 在 Qwen3-4B-Instruct 上的手动失败诊断（393 个失败 episode）：

类型	占比	定义	对应 Harness 层
动作实现失败	~23%	模型意图合理，但动作格式不可执行（自由文本代替 tool call、缺失参数）	action-realization-layer
环境契约不匹配	~33%	动作语法正确但违反工具使用的调用协议或策略约束	environment-contract-layer
轨迹退化	~17%	单步有效但整体陷入重复、停滞或无效恢复循环	trajectory-regulation-layer
一般推理失败	~27%	推理、计算或决策本身错误，尽管基本遵循了协议	超出 Harness 范围，需模型改进

四类失败的分布因环境而异——不同 benchmark 的主导失败模式差异很大：

这意味着：没有万能的一层 Harness——需要多层协同覆盖。

对每个失败 episode，按最早主导瓶颈分配类别（见论文 Appendix A.1 的详细分类规则）。