SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.8 KiB

Raw Blame History

title, created, type, tags, sources

title

created

type

tags

sources

Document Degradation / 文档退化

2026-05-14

concept

document-corruption

error-accumulation

silent-failure

delegated-work

https://arxiv.org/abs/2604.15597

Document Degradation

文档退化（Document Degradation）是 delegate-52 基准揭示的核心现象：当 LLM 在长时间委托工作流中持续编辑文档时，文档内容会静默地、逐步地被损坏。

退化特征

稀疏但严重（Sparse but Severe）

不是"千刀万剐"式的小错误累积——约 80% 的总退化来自少数几次 critical-failures（单次交互损失 10-30+ 分）。模型在某些回合中保持近乎完美的重建，然后在少数回合中发生灾难性错误。

删除 vs 损坏（Deletion vs Corruption）

弱模型（GPT 5 Nano, GPT 4o）的退化主要来自内容删除（结构化元素计数减少）
前沿模型（Claude 4.6 Opus, Gemini 3.1 Pro）的退化主要来自内容损坏（元素存在但内容错误）

渐进而非线性

退化曲线呈单调下降，约 3 次交互后就开始出现明显退化。即使扩展到 100 次交互仍持续退化，无平台迹象。

影响因素

因素	效应
文档大小	每增加 1000 tokens，退化加剧约 3.6%（20 次交互后）
交互长度	与文档大小乘性叠加（5 倍放大效应）
distractor-context	危害随交互长度放大（短交互低估其影响）
Agentic 工具使用	反而加剧退化（+6%），因工具开销

相关概念

delegate-52 — 发现此现象的基准
critical-failures — 退化的主要来源
backtranslation-round-trip-relay — 测量方法
long-horizon-evaluation — 为什么短评估不够