SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.8 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

自回归展开 (Autoregressive Unrolling)

2026-06-18

2026-06-18

concept

transformers

recurrence

training

teacher-forcing

mozer-topological-trouble-transformers-2026

自回归展开 (Autoregressive Unrolling)

自回归展开是 Mozer et al. (2026) 定义的关键概念：即使在 Teacher Forcing 训练下，循环模型也必须按自回归步逐步展开，而非完全并行处理。

与标准 Transformer 的区别

	标准 Transformer	循环 Transformer（需展开）
训练时	所有 token 并行（一次前向）	按步展开（串行或块状）
推理时	Token-by-token 自回归	Token-by-token 自回归
状态传播	前馈（深度受限）	循环（无界）

Mozer et al. 的精确定义

"循环步"严格定义为训练期间排除跨序列并行化的顺序依赖——不是纯前馈模型 token-by-token 推理中的伪串行。

三种展开模式

图 5b：深度展开（Looped Transformer）

块内并行，深度方向循环
状态仍受深度限制

图 5c：块状展开（Blockwise-Recurrent）

固定长度 token 块内并行
块间串行传递状态

图 5d/图 6：全自回归展开

一个或多个自回归步对应一个输入 token
真正无界状态追踪的关键

训练效率挑战

自回归展开是必要的代价——任何能在训练时完全并行化的模型，其状态追踪能力都受限于其前馈深度（Merrill et al., 2025）。

应对策略：Mozer et al. 建议分阶段训练——先标准 Transformer 预训练，再引入循环机制。

参考