20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/autoregressive-unrolling.md
+++ b/concepts/autoregressive-unrolling.md
@@ -0,0 +1,52 @@
+---
+title: "自回归展开 (Autoregressive Unrolling)"
+created: 2026-06-18
+updated: 2026-06-18
+type: concept
+tags: [transformers, recurrence, training, teacher-forcing]
+sources:
+  - mozer-topological-trouble-transformers-2026
+---
+
+# 自回归展开 (Autoregressive Unrolling)
+
+自回归展开是 Mozer et al. (2026) 定义的关键概念：即使在 Teacher Forcing 训练下，循环模型也必须**按自回归步逐步展开**，而非完全并行处理。
+
+## 与标准 Transformer 的区别
+
+| | 标准 Transformer | 循环 Transformer（需展开） |
+|---|---|---|
+| 训练时 | 所有 token 并行（一次前向） | 按步展开（串行或块状） |
+| 推理时 | Token-by-token 自回归 | Token-by-token 自回归 |
+| 状态传播 | 前馈（深度受限） | 循环（无界） |
+
+## Mozer et al. 的精确定义
+
+> "循环步"严格定义为训练期间排除跨序列并行化的**顺序依赖**——不是纯前馈模型 token-by-token 推理中的伪串行。
+
+## 三种展开模式
+
+### 图 5b：深度展开（Looped Transformer）
+- 块内并行，深度方向循环
+- 状态仍受深度限制
+
+### 图 5c：块状展开（Blockwise-Recurrent）
+- 固定长度 token 块内并行
+- 块间串行传递状态
+
+### 图 5d/图 6：全自回归展开
+- 一个或多个自回归步对应一个输入 token
+- 真正无界状态追踪的关键
+
+## 训练效率挑战
+
+自回归展开是**必要的代价**——任何能在训练时完全并行化的模型，其状态追踪能力都受限于其前馈深度（Merrill et al., 2025）。
+
+应对策略：Mozer et al. 建议**分阶段训练**——先标准 Transformer 预训练，再引入循环机制。
+
+## 参考
+
+- [[sequential-dependency|顺序依赖]]
+- [[recurrent-transformer-architectures|循环 Transformer 架构]]
+- [[recurrence-taxonomy|循环分类法]]
+- [[mozer-topological-trouble-transformers-2026]]