1.8 KiB
1.8 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| 前馈深度局限 (Feedforward Depth Limitation) | 2026-06-18 | 2026-06-18 | concept |
|
|
前馈深度局限 (Feedforward Depth Limitation)
前馈深度局限是指纯前馈架构无法无限追踪状态更新的根本性限制(Mozer et al., 2026)。
为什么发生
在 Transformer 解码器中,激活从浅层流向深层:
- 每一步的状态更新
s_t = f(s_{t-1}, x_t)将新的状态表示推到更深的层 - 经过 t 步后,s_t 位于第 t 层附近——浅层无法访问
- 当 t > 层数时,模型"耗尽"深度,状态追踪崩溃
实际影响
- 深度瓶颈:Merrill & Sabharwal (2025) 证明需要 O(log n) 层来识别长度为 n 的正则语言,且这只是"可构造性"而非"可学习性"
- 信息不可及性:Lepori et al. (2025) 通过 Patchscopes 发现,多义词消歧在深层完成,但浅层在生成响应时仍使用未消歧的表示
- 级联误差:深层的正确信念(如 river bank)无法传递给后续 token 的浅层处理
变通方案及其代价
- Chain-of-Thought:将深层表示外化为 token,重新注入浅层——但浪费计算和上下文窗口
- Latent Thinking:隐式地循环传递——但效率问题仍存
- 可变深度模型:动态调节层数——但本质上仍受深度限制
解决方向
真正的解决方案需要循环架构(recurrent-transformer-architectures),允许任意长度的状态传播。