Files
myWiki/concepts/feedforward-depth-limitation.md

1.8 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
前馈深度局限 (Feedforward Depth Limitation) 2026-06-18 2026-06-18 concept
transformers
architecture
depth
mozer-topological-trouble-transformers-2026

前馈深度局限 (Feedforward Depth Limitation)

前馈深度局限是指纯前馈架构无法无限追踪状态更新的根本性限制Mozer et al., 2026

为什么发生

在 Transformer 解码器中,激活从浅层流向深层:

  1. 每一步的状态更新 s_t = f(s_{t-1}, x_t) 将新的状态表示推到更深的层
  2. 经过 t 步后s_t 位于第 t 层附近——浅层无法访问
  3. 当 t > 层数时,模型"耗尽"深度,状态追踪崩溃

实际影响

  • 深度瓶颈Merrill & Sabharwal (2025) 证明需要 O(log n) 层来识别长度为 n 的正则语言,且这只是"可构造性"而非"可学习性"
  • 信息不可及性Lepori et al. (2025) 通过 Patchscopes 发现,多义词消歧在深层完成,但浅层在生成响应时仍使用未消歧的表示
  • 级联误差:深层的正确信念(如 river bank无法传递给后续 token 的浅层处理

变通方案及其代价

  1. Chain-of-Thought:将深层表示外化为 token重新注入浅层——但浪费计算和上下文窗口
  2. Latent Thinking:隐式地循环传递——但效率问题仍存
  3. 可变深度模型:动态调节层数——但本质上仍受深度限制

解决方向

真正的解决方案需要循环架构recurrent-transformer-architectures),允许任意长度的状态传播。

参考