Files
myWiki/concepts/depth-dilemma.md

41 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "深度困境 (Depth Dilemma)"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: [transformers, depth, state-tracking]
sources:
- mozer-topological-trouble-transformers-2026
---
# 深度困境 (Depth Dilemma)
深度困境描述 Transformer 中**状态追踪与层深度的根本矛盾**Mozer et al., 2026
## 困境的本质
如图 1b 所示Mozer et al., 2026状态表示 `s_t` 必须在比 `s_{t-1}` 更深的层中——因为前馈架构不允许信息从深层回流到浅层。结果是:
1. **浅层盲区**:深层产生的状态信息对后续 token 的浅层不可及
2. **级联误差**:浅层使用未充分上下文化的表示做出预测(如 bank→ATM 误判)
3. **深度耗尽**:足够长的序列必然超出模型深度上限
## 实证证据
- **Lepori et al. (2025)**Gemma2-9B 在两步推理级联中即出现错误——多义词消歧在深层完成,但浅层已生成错误回答
- **Biran et al. (2024)**:状态表示上移导致下游利用困难
- **Venhoff et al. (2025)**:深层状态无法可靠整合跨序列信息
## 为何 Transformer 仍然成功
1. **上下文检索替代**将状态追踪问题转化为工作记忆问题lookback
2. **组合状态**:状态可拆分到多个嵌入中独立更新
3. **巧妙捷径**:配对奇偶计算、关联扫描等算法在有限深度内完成计算
## 参考
- [[feedforward-depth-limitation|前馈深度局限]]
- [[state-tracking|状态追踪]]
- [[chain-of-thought|思维链]]
- [[mozer-topological-trouble-transformers-2026]]