Files
myWiki/concepts/feedforward-depth-limitation.md

44 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "前馈深度局限 (Feedforward Depth Limitation)"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: [transformers, architecture, depth]
sources:
- mozer-topological-trouble-transformers-2026
---
# 前馈深度局限 (Feedforward Depth Limitation)
前馈深度局限是指**纯前馈架构无法无限追踪状态更新**的根本性限制Mozer et al., 2026
## 为什么发生
在 Transformer 解码器中,激活从浅层流向深层:
1. 每一步的状态更新 `s_t = f(s_{t-1}, x_t)` 将新的状态表示推到更深的层
2. 经过 t 步后s_t 位于第 t 层附近——浅层无法访问
3. 当 t > 层数时,模型"耗尽"深度,状态追踪崩溃
## 实际影响
- **深度瓶颈**Merrill & Sabharwal (2025) 证明需要 O(log n) 层来识别长度为 n 的正则语言,且这只是"可构造性"而非"可学习性"
- **信息不可及性**Lepori et al. (2025) 通过 Patchscopes 发现,多义词消歧在深层完成,但浅层在生成响应时仍使用未消歧的表示
- **级联误差**:深层的正确信念(如 river bank无法传递给后续 token 的浅层处理
## 变通方案及其代价
1. **Chain-of-Thought**:将深层表示外化为 token重新注入浅层——但浪费计算和上下文窗口
2. **Latent Thinking**:隐式地循环传递——但效率问题仍存
3. **可变深度模型**:动态调节层数——但本质上仍受深度限制
## 解决方向
真正的解决方案需要**循环架构**[[recurrent-transformer-architectures|循环 Transformer 架构]]),允许任意长度的状态传播。
## 参考
- [[state-tracking|状态追踪]]
- [[depth-dilemma|深度困境]]
- [[sequential-dependency|顺序依赖]]
- [[mozer-topological-trouble-transformers-2026]]