20260625:很多新内容
This commit is contained in:
43
concepts/feedforward-depth-limitation.md
Normal file
43
concepts/feedforward-depth-limitation.md
Normal file
@@ -0,0 +1,43 @@
|
||||
---
|
||||
title: "前馈深度局限 (Feedforward Depth Limitation)"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: concept
|
||||
tags: [transformers, architecture, depth]
|
||||
sources:
|
||||
- mozer-topological-trouble-transformers-2026
|
||||
---
|
||||
|
||||
# 前馈深度局限 (Feedforward Depth Limitation)
|
||||
|
||||
前馈深度局限是指**纯前馈架构无法无限追踪状态更新**的根本性限制(Mozer et al., 2026)。
|
||||
|
||||
## 为什么发生
|
||||
|
||||
在 Transformer 解码器中,激活从浅层流向深层:
|
||||
1. 每一步的状态更新 `s_t = f(s_{t-1}, x_t)` 将新的状态表示推到更深的层
|
||||
2. 经过 t 步后,s_t 位于第 t 层附近——浅层无法访问
|
||||
3. 当 t > 层数时,模型"耗尽"深度,状态追踪崩溃
|
||||
|
||||
## 实际影响
|
||||
|
||||
- **深度瓶颈**:Merrill & Sabharwal (2025) 证明需要 O(log n) 层来识别长度为 n 的正则语言,且这只是"可构造性"而非"可学习性"
|
||||
- **信息不可及性**:Lepori et al. (2025) 通过 Patchscopes 发现,多义词消歧在深层完成,但浅层在生成响应时仍使用未消歧的表示
|
||||
- **级联误差**:深层的正确信念(如 river bank)无法传递给后续 token 的浅层处理
|
||||
|
||||
## 变通方案及其代价
|
||||
|
||||
1. **Chain-of-Thought**:将深层表示外化为 token,重新注入浅层——但浪费计算和上下文窗口
|
||||
2. **Latent Thinking**:隐式地循环传递——但效率问题仍存
|
||||
3. **可变深度模型**:动态调节层数——但本质上仍受深度限制
|
||||
|
||||
## 解决方向
|
||||
|
||||
真正的解决方案需要**循环架构**([[recurrent-transformer-architectures|循环 Transformer 架构]]),允许任意长度的状态传播。
|
||||
|
||||
## 参考
|
||||
|
||||
- [[state-tracking|状态追踪]]
|
||||
- [[depth-dilemma|深度困境]]
|
||||
- [[sequential-dependency|顺序依赖]]
|
||||
- [[mozer-topological-trouble-transformers-2026]]
|
||||
Reference in New Issue
Block a user