20260625:很多新内容

This commit is contained in:
2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions

40
concepts/depth-dilemma.md Normal file
View File

@@ -0,0 +1,40 @@
---
title: "深度困境 (Depth Dilemma)"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: [transformers, depth, state-tracking]
sources:
- mozer-topological-trouble-transformers-2026
---
# 深度困境 (Depth Dilemma)
深度困境描述 Transformer 中**状态追踪与层深度的根本矛盾**Mozer et al., 2026
## 困境的本质
如图 1b 所示Mozer et al., 2026状态表示 `s_t` 必须在比 `s_{t-1}` 更深的层中——因为前馈架构不允许信息从深层回流到浅层。结果是:
1. **浅层盲区**:深层产生的状态信息对后续 token 的浅层不可及
2. **级联误差**:浅层使用未充分上下文化的表示做出预测(如 bank→ATM 误判)
3. **深度耗尽**:足够长的序列必然超出模型深度上限
## 实证证据
- **Lepori et al. (2025)**Gemma2-9B 在两步推理级联中即出现错误——多义词消歧在深层完成,但浅层已生成错误回答
- **Biran et al. (2024)**:状态表示上移导致下游利用困难
- **Venhoff et al. (2025)**:深层状态无法可靠整合跨序列信息
## 为何 Transformer 仍然成功
1. **上下文检索替代**将状态追踪问题转化为工作记忆问题lookback
2. **组合状态**:状态可拆分到多个嵌入中独立更新
3. **巧妙捷径**:配对奇偶计算、关联扫描等算法在有限深度内完成计算
## 参考
- [[feedforward-depth-limitation|前馈深度局限]]
- [[state-tracking|状态追踪]]
- [[chain-of-thought|思维链]]
- [[mozer-topological-trouble-transformers-2026]]