41 lines
1.6 KiB
Markdown
41 lines
1.6 KiB
Markdown
---
|
||
title: "深度困境 (Depth Dilemma)"
|
||
created: 2026-06-18
|
||
updated: 2026-06-18
|
||
type: concept
|
||
tags: [transformers, depth, state-tracking]
|
||
sources:
|
||
- mozer-topological-trouble-transformers-2026
|
||
---
|
||
|
||
# 深度困境 (Depth Dilemma)
|
||
|
||
深度困境描述 Transformer 中**状态追踪与层深度的根本矛盾**(Mozer et al., 2026)。
|
||
|
||
## 困境的本质
|
||
|
||
如图 1b 所示(Mozer et al., 2026),状态表示 `s_t` 必须在比 `s_{t-1}` 更深的层中——因为前馈架构不允许信息从深层回流到浅层。结果是:
|
||
|
||
1. **浅层盲区**:深层产生的状态信息对后续 token 的浅层不可及
|
||
2. **级联误差**:浅层使用未充分上下文化的表示做出预测(如 bank→ATM 误判)
|
||
3. **深度耗尽**:足够长的序列必然超出模型深度上限
|
||
|
||
## 实证证据
|
||
|
||
- **Lepori et al. (2025)**:Gemma2-9B 在两步推理级联中即出现错误——多义词消歧在深层完成,但浅层已生成错误回答
|
||
- **Biran et al. (2024)**:状态表示上移导致下游利用困难
|
||
- **Venhoff et al. (2025)**:深层状态无法可靠整合跨序列信息
|
||
|
||
## 为何 Transformer 仍然成功
|
||
|
||
1. **上下文检索替代**:将状态追踪问题转化为工作记忆问题(lookback)
|
||
2. **组合状态**:状态可拆分到多个嵌入中独立更新
|
||
3. **巧妙捷径**:配对奇偶计算、关联扫描等算法在有限深度内完成计算
|
||
|
||
## 参考
|
||
|
||
- [[feedforward-depth-limitation|前馈深度局限]]
|
||
- [[state-tracking|状态追踪]]
|
||
- [[chain-of-thought|思维链]]
|
||
- [[mozer-topological-trouble-transformers-2026]]
|