1.8 KiB
1.8 KiB
title, created, type, tags, sources
| title | created | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|
| Document Degradation / 文档退化 | 2026-05-14 | concept |
|
|
Document Degradation
文档退化(Document Degradation)是 delegate-52 基准揭示的核心现象:当 LLM 在长时间委托工作流中持续编辑文档时,文档内容会静默地、逐步地被损坏。
退化特征
稀疏但严重(Sparse but Severe)
不是"千刀万剐"式的小错误累积——约 80% 的总退化来自少数几次 critical-failures(单次交互损失 10-30+ 分)。模型在某些回合中保持近乎完美的重建,然后在少数回合中发生灾难性错误。
删除 vs 损坏(Deletion vs Corruption)
- 弱模型(GPT 5 Nano, GPT 4o)的退化主要来自内容删除(结构化元素计数减少)
- 前沿模型(Claude 4.6 Opus, Gemini 3.1 Pro)的退化主要来自内容损坏(元素存在但内容错误)
渐进而非线性
退化曲线呈单调下降,约 3 次交互后就开始出现明显退化。即使扩展到 100 次交互仍持续退化,无平台迹象。
影响因素
| 因素 | 效应 |
|---|---|
| 文档大小 | 每增加 1000 tokens,退化加剧约 3.6%(20 次交互后) |
| 交互长度 | 与文档大小乘性叠加(5 倍放大效应) |
| distractor-context | 危害随交互长度放大(短交互低估其影响) |
| Agentic 工具使用 | 反而加剧退化(+6%),因工具开销 |
相关概念
- delegate-52 — 发现此现象的基准
- critical-failures — 退化的主要来源
- backtranslation-round-trip-relay — 测量方法
- long-horizon-evaluation — 为什么短评估不够