--- title: "深度困境 (Depth Dilemma)" created: 2026-06-18 updated: 2026-06-18 type: concept tags: [transformers, depth, state-tracking] sources: - mozer-topological-trouble-transformers-2026 --- # 深度困境 (Depth Dilemma) 深度困境描述 Transformer 中**状态追踪与层深度的根本矛盾**(Mozer et al., 2026)。 ## 困境的本质 如图 1b 所示(Mozer et al., 2026),状态表示 `s_t` 必须在比 `s_{t-1}` 更深的层中——因为前馈架构不允许信息从深层回流到浅层。结果是: 1. **浅层盲区**:深层产生的状态信息对后续 token 的浅层不可及 2. **级联误差**:浅层使用未充分上下文化的表示做出预测(如 bank→ATM 误判) 3. **深度耗尽**:足够长的序列必然超出模型深度上限 ## 实证证据 - **Lepori et al. (2025)**:Gemma2-9B 在两步推理级联中即出现错误——多义词消歧在深层完成,但浅层已生成错误回答 - **Biran et al. (2024)**:状态表示上移导致下游利用困难 - **Venhoff et al. (2025)**:深层状态无法可靠整合跨序列信息 ## 为何 Transformer 仍然成功 1. **上下文检索替代**:将状态追踪问题转化为工作记忆问题(lookback) 2. **组合状态**:状态可拆分到多个嵌入中独立更新 3. **巧妙捷径**:配对奇偶计算、关联扫描等算法在有限深度内完成计算 ## 参考 - [[feedforward-depth-limitation|前馈深度局限]] - [[state-tracking|状态追踪]] - [[chain-of-thought|思维链]] - [[mozer-topological-trouble-transformers-2026]]