1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| 深度困境 (Depth Dilemma) | 2026-06-18 | 2026-06-18 | concept |
|
|
深度困境 (Depth Dilemma)
深度困境描述 Transformer 中状态追踪与层深度的根本矛盾(Mozer et al., 2026)。
困境的本质
如图 1b 所示(Mozer et al., 2026),状态表示 s_t 必须在比 s_{t-1} 更深的层中——因为前馈架构不允许信息从深层回流到浅层。结果是:
- 浅层盲区:深层产生的状态信息对后续 token 的浅层不可及
- 级联误差:浅层使用未充分上下文化的表示做出预测(如 bank→ATM 误判)
- 深度耗尽:足够长的序列必然超出模型深度上限
实证证据
- Lepori et al. (2025):Gemma2-9B 在两步推理级联中即出现错误——多义词消歧在深层完成,但浅层已生成错误回答
- Biran et al. (2024):状态表示上移导致下游利用困难
- Venhoff et al. (2025):深层状态无法可靠整合跨序列信息
为何 Transformer 仍然成功
- 上下文检索替代:将状态追踪问题转化为工作记忆问题(lookback)
- 组合状态:状态可拆分到多个嵌入中独立更新
- 巧妙捷径:配对奇偶计算、关联扫描等算法在有限深度内完成计算