20260625:很多新内容
This commit is contained in:
52
concepts/autoregressive-unrolling.md
Normal file
52
concepts/autoregressive-unrolling.md
Normal file
@@ -0,0 +1,52 @@
|
||||
---
|
||||
title: "自回归展开 (Autoregressive Unrolling)"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: concept
|
||||
tags: [transformers, recurrence, training, teacher-forcing]
|
||||
sources:
|
||||
- mozer-topological-trouble-transformers-2026
|
||||
---
|
||||
|
||||
# 自回归展开 (Autoregressive Unrolling)
|
||||
|
||||
自回归展开是 Mozer et al. (2026) 定义的关键概念:即使在 Teacher Forcing 训练下,循环模型也必须**按自回归步逐步展开**,而非完全并行处理。
|
||||
|
||||
## 与标准 Transformer 的区别
|
||||
|
||||
| | 标准 Transformer | 循环 Transformer(需展开) |
|
||||
|---|---|---|
|
||||
| 训练时 | 所有 token 并行(一次前向) | 按步展开(串行或块状) |
|
||||
| 推理时 | Token-by-token 自回归 | Token-by-token 自回归 |
|
||||
| 状态传播 | 前馈(深度受限) | 循环(无界) |
|
||||
|
||||
## Mozer et al. 的精确定义
|
||||
|
||||
> "循环步"严格定义为训练期间排除跨序列并行化的**顺序依赖**——不是纯前馈模型 token-by-token 推理中的伪串行。
|
||||
|
||||
## 三种展开模式
|
||||
|
||||
### 图 5b:深度展开(Looped Transformer)
|
||||
- 块内并行,深度方向循环
|
||||
- 状态仍受深度限制
|
||||
|
||||
### 图 5c:块状展开(Blockwise-Recurrent)
|
||||
- 固定长度 token 块内并行
|
||||
- 块间串行传递状态
|
||||
|
||||
### 图 5d/图 6:全自回归展开
|
||||
- 一个或多个自回归步对应一个输入 token
|
||||
- 真正无界状态追踪的关键
|
||||
|
||||
## 训练效率挑战
|
||||
|
||||
自回归展开是**必要的代价**——任何能在训练时完全并行化的模型,其状态追踪能力都受限于其前馈深度(Merrill et al., 2025)。
|
||||
|
||||
应对策略:Mozer et al. 建议**分阶段训练**——先标准 Transformer 预训练,再引入循环机制。
|
||||
|
||||
## 参考
|
||||
|
||||
- [[sequential-dependency|顺序依赖]]
|
||||
- [[recurrent-transformer-architectures|循环 Transformer 架构]]
|
||||
- [[recurrence-taxonomy|循环分类法]]
|
||||
- [[mozer-topological-trouble-transformers-2026]]
|
||||
Reference in New Issue
Block a user