20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

View File

@@ -0,0 +1,41 @@
---
title: "Deterministic Agent Failures确定性 Agent 失败分类)"
created: 2026-06-11
updated: 2026-06-11
type: concept
tags: [agent, failure-analysis, deterministic, taxonomy]
sources: [raw/papers/xu-life-harness-runtime-adaptation-2026.md]
---
# Deterministic Agent Failures
> 在确定性、规则驱动的 Agent 环境中,失败可以系统性地分类为四大类型——不同类型的失败需要不同阶段的接口干预。
## 四类失败
基于 Life-Harness 在 Qwen3-4B-Instruct 上的手动失败诊断393 个失败 episode
| 类型 | 占比 | 定义 | 对应 Harness 层 |
|------|------|------|----------------|
| **动作实现失败** | ~23% | 模型意图合理,但动作格式不可执行(自由文本代替 tool call、缺失参数 | [[action-realization-layer\|动作实现层]] |
| **环境契约不匹配** | ~33% | 动作语法正确但违反工具使用的调用协议或策略约束 | [[environment-contract-layer\|环境契约层]] |
| **轨迹退化** | ~17% | 单步有效但整体陷入重复、停滞或无效恢复循环 | [[trajectory-regulation-layer\|轨迹调控层]] |
| **一般推理失败** | ~27% | 推理、计算或决策本身错误,尽管基本遵循了协议 | 超出 Harness 范围,需模型改进 |
## 关键洞察
四类失败的分布**因环境而异**——不同 benchmark 的主导失败模式差异很大:
- ALFWorld动作实现 + 轨迹退化占主导
- WebShop环境契约匹配更关键
- OS/DBBench分布更均匀
这意味着:**没有万能的一层 Harness**——需要多层协同覆盖。
## 诊断方法
对每个失败 episode按最早主导瓶颈分配类别见论文 Appendix A.1 的详细分类规则)。
## 参考
- [[xu-life-harness|Life-Harness 论文]]
- [[runtime-harness-adaptation|Runtime Harness Adaptation]]
- [[harness-evolution|Harness Evolution]]