---
title: "Deterministic Agent Failures（确定性 Agent 失败分类）"
created: 2026-06-11
updated: 2026-06-11
type: concept
tags: [agent, failure-analysis, deterministic, taxonomy]
sources: [raw/papers/xu-life-harness-runtime-adaptation-2026.md]
---

# Deterministic Agent Failures

> 在确定性、规则驱动的 Agent 环境中，失败可以系统性地分类为四大类型——不同类型的失败需要不同阶段的接口干预。

## 四类失败

基于 Life-Harness 在 Qwen3-4B-Instruct 上的手动失败诊断（393 个失败 episode）：

| 类型 | 占比 | 定义 | 对应 Harness 层 |
|------|------|------|----------------|
| **动作实现失败** | ~23% | 模型意图合理，但动作格式不可执行（自由文本代替 tool call、缺失参数） | [[action-realization-layer\|动作实现层]] |
| **环境契约不匹配** | ~33% | 动作语法正确但违反工具使用的调用协议或策略约束 | [[environment-contract-layer\|环境契约层]] |
| **轨迹退化** | ~17% | 单步有效但整体陷入重复、停滞或无效恢复循环 | [[trajectory-regulation-layer\|轨迹调控层]] |
| **一般推理失败** | ~27% | 推理、计算或决策本身错误，尽管基本遵循了协议 | 超出 Harness 范围，需模型改进 |

## 关键洞察

四类失败的分布**因环境而异**——不同 benchmark 的主导失败模式差异很大：
- ALFWorld：动作实现 + 轨迹退化占主导
- WebShop：环境契约匹配更关键
- OS/DBBench：分布更均匀

这意味着：**没有万能的一层 Harness**——需要多层协同覆盖。

## 诊断方法

对每个失败 episode，按最早主导瓶颈分配类别（见论文 Appendix A.1 的详细分类规则）。

## 参考
- [[xu-life-harness|Life-Harness 论文]]
- [[runtime-harness-adaptation|Runtime Harness Adaptation]]
- [[harness-evolution|Harness Evolution]]