20260514:增加新内容
This commit is contained in:
41
concepts/critical-failures.md
Normal file
41
concepts/critical-failures.md
Normal file
@@ -0,0 +1,41 @@
|
||||
---
|
||||
title: "Critical Failures / 关键失败"
|
||||
created: 2026-05-14
|
||||
type: concept
|
||||
tags: ["error-analysis", "sparse-errors", "document-corruption", "degradation-decomposition"]
|
||||
sources: ["https://arxiv.org/abs/2604.15597"]
|
||||
---
|
||||
|
||||
# Critical Failures
|
||||
|
||||
在 [[delegate-52]] 基准中,关键失败(Critical Failure)定义为单次回译导致重建分数下降 ≥10% 的事件。分析发现,模型退化的**主要驱动力不是均匀的小错误累积,而是稀疏的严重失败**。
|
||||
|
||||
## 关键数据
|
||||
|
||||
- 关键失败解释了约 **80%** 的总 [[document-degradation|文档退化]]
|
||||
- 更强的模型并非更好地避免小错误,而是**延迟关键失败**并减少其发生频率
|
||||
- Gemini 3.1 Pro: 20 次交互后 38.1% 的 relay 至少经历一次关键失败
|
||||
- GPT 5 Nano: 20 次交互后 97.2% 的 relay 至少经历一次关键失败
|
||||
|
||||
## 错误结构
|
||||
|
||||
按模型退化分解(10 轮 relay 后):
|
||||
|
||||
| 退化来源 | 弱模型 | 前沿模型 |
|
||||
|----------|--------|----------|
|
||||
| 删除(元素消失) | ~70% | ~22-35% |
|
||||
| 损坏(元素内容错误) | ~30% | ~65-78% |
|
||||
|
||||
前沿模型的退化主要是**内容被改错**,而非内容丢失。
|
||||
|
||||
## 实践含义
|
||||
|
||||
- 用户无法通过"抽查几处"来信任委托结果——错误是稀疏但毁灭性的
|
||||
- 短交互评估会严重低估风险——关键失败概率随交互长度非线性增长
|
||||
- [[long-horizon-evaluation|长视界评估]]对捕捉此类失败模式至关重要
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[document-degradation]] — 关键失败是其主要来源
|
||||
- [[delegate-52]] — 分析的数据来源
|
||||
- [[backtranslation-round-trip-relay]] — 检测方法
|
||||
Reference in New Issue
Block a user