Files
myWiki/concepts/document-degradation.md

40 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Document Degradation / 文档退化"
created: 2026-05-14
type: concept
tags: ["document-corruption", "error-accumulation", "silent-failure", "delegated-work"]
sources: ["https://arxiv.org/abs/2604.15597"]
---
# Document Degradation
文档退化Document Degradation是 [[delegate-52]] 基准揭示的核心现象:当 LLM 在长时间委托工作流中持续编辑文档时,文档内容会**静默地、逐步地**被损坏。
## 退化特征
### 稀疏但严重Sparse but Severe
不是"千刀万剐"式的小错误累积——约 80% 的总退化来自少数几次 [[critical-failures|关键失败]](单次交互损失 10-30+ 分)。模型在某些回合中保持近乎完美的重建,然后在少数回合中发生灾难性错误。
### 删除 vs 损坏Deletion vs Corruption
- **弱模型**GPT 5 Nano, GPT 4o的退化主要来自**内容删除**(结构化元素计数减少)
- **前沿模型**Claude 4.6 Opus, Gemini 3.1 Pro的退化主要来自**内容损坏**(元素存在但内容错误)
### 渐进而非线性
退化曲线呈单调下降,约 3 次交互后就开始出现明显退化。即使扩展到 100 次交互仍持续退化,无平台迹象。
## 影响因素
| 因素 | 效应 |
|------|------|
| 文档大小 | 每增加 1000 tokens退化加剧约 3.6%20 次交互后) |
| 交互长度 | 与文档大小**乘性叠加**5 倍放大效应) |
| [[distractor-context\|干扰文档]] | 危害随交互长度放大(短交互低估其影响) |
| Agentic 工具使用 | 反而加剧退化(+6%),因工具开销 |
## 相关概念
- [[delegate-52]] — 发现此现象的基准
- [[critical-failures]] — 退化的主要来源
- [[backtranslation-round-trip-relay]] — 测量方法
- [[long-horizon-evaluation]] — 为什么短评估不够