Files
myWiki/concepts/critical-failures.md

42 lines
1.6 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Critical Failures / 关键失败"
created: 2026-05-14
type: concept
tags: ["error-analysis", "sparse-errors", "document-corruption", "degradation-decomposition"]
sources: ["https://arxiv.org/abs/2604.15597"]
---
# Critical Failures
在 [[delegate-52]] 基准中关键失败Critical Failure定义为单次回译导致重建分数下降 ≥10% 的事件。分析发现,模型退化的**主要驱动力不是均匀的小错误累积,而是稀疏的严重失败**。
## 关键数据
- 关键失败解释了约 **80%** 的总 [[document-degradation|文档退化]]
- 更强的模型并非更好地避免小错误,而是**延迟关键失败**并减少其发生频率
- Gemini 3.1 Pro: 20 次交互后 38.1% 的 relay 至少经历一次关键失败
- GPT 5 Nano: 20 次交互后 97.2% 的 relay 至少经历一次关键失败
## 错误结构
按模型退化分解10 轮 relay 后):
| 退化来源 | 弱模型 | 前沿模型 |
|----------|--------|----------|
| 删除(元素消失) | ~70% | ~22-35% |
| 损坏(元素内容错误) | ~30% | ~65-78% |
前沿模型的退化主要是**内容被改错**,而非内容丢失。
## 实践含义
- 用户无法通过"抽查几处"来信任委托结果——错误是稀疏但毁灭性的
- 短交互评估会严重低估风险——关键失败概率随交互长度非线性增长
- [[long-horizon-evaluation|长视界评估]]对捕捉此类失败模式至关重要
## 相关概念
- [[document-degradation]] — 关键失败是其主要来源
- [[delegate-52]] — 分析的数据来源
- [[backtranslation-round-trip-relay]] — 检测方法