1.6 KiB
1.6 KiB
title, created, type, tags, sources
| title | created | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|
| Critical Failures / 关键失败 | 2026-05-14 | concept |
|
|
Critical Failures
在 delegate-52 基准中,关键失败(Critical Failure)定义为单次回译导致重建分数下降 ≥10% 的事件。分析发现,模型退化的主要驱动力不是均匀的小错误累积,而是稀疏的严重失败。
关键数据
- 关键失败解释了约 80% 的总 document-degradation
- 更强的模型并非更好地避免小错误,而是延迟关键失败并减少其发生频率
- Gemini 3.1 Pro: 20 次交互后 38.1% 的 relay 至少经历一次关键失败
- GPT 5 Nano: 20 次交互后 97.2% 的 relay 至少经历一次关键失败
错误结构
按模型退化分解(10 轮 relay 后):
| 退化来源 | 弱模型 | 前沿模型 |
|---|---|---|
| 删除(元素消失) | ~70% | ~22-35% |
| 损坏(元素内容错误) | ~30% | ~65-78% |
前沿模型的退化主要是内容被改错,而非内容丢失。
实践含义
- 用户无法通过"抽查几处"来信任委托结果——错误是稀疏但毁灭性的
- 短交互评估会严重低估风险——关键失败概率随交互长度非线性增长
- long-horizon-evaluation对捕捉此类失败模式至关重要
相关概念
- document-degradation — 关键失败是其主要来源
- delegate-52 — 分析的数据来源
- backtranslation-round-trip-relay — 检测方法