20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/feedforward-depth-limitation.md
+++ b/concepts/feedforward-depth-limitation.md
@@ -0,0 +1,43 @@
+---
+title: "前馈深度局限 (Feedforward Depth Limitation)"
+created: 2026-06-18
+updated: 2026-06-18
+type: concept
+tags: [transformers, architecture, depth]
+sources:
+  - mozer-topological-trouble-transformers-2026
+---
+
+# 前馈深度局限 (Feedforward Depth Limitation)
+
+前馈深度局限是指**纯前馈架构无法无限追踪状态更新**的根本性限制（Mozer et al., 2026）。
+
+## 为什么发生
+
+在 Transformer 解码器中，激活从浅层流向深层：
+1. 每一步的状态更新 `s_t = f(s_{t-1}, x_t)` 将新的状态表示推到更深的层
+2. 经过 t 步后，s_t 位于第 t 层附近——浅层无法访问
+3. 当 t > 层数时，模型"耗尽"深度，状态追踪崩溃
+
+## 实际影响
+
+- **深度瓶颈**：Merrill & Sabharwal (2025) 证明需要 O(log n) 层来识别长度为 n 的正则语言，且这只是"可构造性"而非"可学习性"
+- **信息不可及性**：Lepori et al. (2025) 通过 Patchscopes 发现，多义词消歧在深层完成，但浅层在生成响应时仍使用未消歧的表示
+- **级联误差**：深层的正确信念（如 river bank）无法传递给后续 token 的浅层处理
+
+## 变通方案及其代价
+
+1. **Chain-of-Thought**：将深层表示外化为 token，重新注入浅层——但浪费计算和上下文窗口
+2. **Latent Thinking**：隐式地循环传递——但效率问题仍存
+3. **可变深度模型**：动态调节层数——但本质上仍受深度限制
+
+## 解决方向
+
+真正的解决方案需要**循环架构**（[[recurrent-transformer-architectures|循环 Transformer 架构]]），允许任意长度的状态传播。
+
+## 参考
+
+- [[state-tracking|状态追踪]]
+- [[depth-dilemma|深度困境]]
+- [[sequential-dependency|顺序依赖]]
+- [[mozer-topological-trouble-transformers-2026]]