Files
myWiki/concepts/depth-dilemma.md

1.6 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
深度困境 (Depth Dilemma) 2026-06-18 2026-06-18 concept
transformers
depth
state-tracking
mozer-topological-trouble-transformers-2026

深度困境 (Depth Dilemma)

深度困境描述 Transformer 中状态追踪与层深度的根本矛盾Mozer et al., 2026

困境的本质

如图 1b 所示Mozer et al., 2026状态表示 s_t 必须在比 s_{t-1} 更深的层中——因为前馈架构不允许信息从深层回流到浅层。结果是:

  1. 浅层盲区:深层产生的状态信息对后续 token 的浅层不可及
  2. 级联误差:浅层使用未充分上下文化的表示做出预测(如 bank→ATM 误判)
  3. 深度耗尽:足够长的序列必然超出模型深度上限

实证证据

  • Lepori et al. (2025)Gemma2-9B 在两步推理级联中即出现错误——多义词消歧在深层完成,但浅层已生成错误回答
  • Biran et al. (2024):状态表示上移导致下游利用困难
  • Venhoff et al. (2025):深层状态无法可靠整合跨序列信息

为何 Transformer 仍然成功

  1. 上下文检索替代将状态追踪问题转化为工作记忆问题lookback
  2. 组合状态:状态可拆分到多个嵌入中独立更新
  3. 巧妙捷径:配对奇偶计算、关联扫描等算法在有限深度内完成计算

参考