Files
myWiki/concepts/autoregressive-unrolling.md

1.8 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
自回归展开 (Autoregressive Unrolling) 2026-06-18 2026-06-18 concept
transformers
recurrence
training
teacher-forcing
mozer-topological-trouble-transformers-2026

自回归展开 (Autoregressive Unrolling)

自回归展开是 Mozer et al. (2026) 定义的关键概念:即使在 Teacher Forcing 训练下,循环模型也必须按自回归步逐步展开,而非完全并行处理。

与标准 Transformer 的区别

标准 Transformer 循环 Transformer需展开
训练时 所有 token 并行(一次前向) 按步展开(串行或块状)
推理时 Token-by-token 自回归 Token-by-token 自回归
状态传播 前馈(深度受限) 循环(无界)

Mozer et al. 的精确定义

"循环步"严格定义为训练期间排除跨序列并行化的顺序依赖——不是纯前馈模型 token-by-token 推理中的伪串行。

三种展开模式

图 5b深度展开Looped Transformer

  • 块内并行,深度方向循环
  • 状态仍受深度限制

图 5c块状展开Blockwise-Recurrent

  • 固定长度 token 块内并行
  • 块间串行传递状态

图 5d/图 6全自回归展开

  • 一个或多个自回归步对应一个输入 token
  • 真正无界状态追踪的关键

训练效率挑战

自回归展开是必要的代价——任何能在训练时完全并行化的模型其状态追踪能力都受限于其前馈深度Merrill et al., 2025

应对策略Mozer et al. 建议分阶段训练——先标准 Transformer 预训练,再引入循环机制。

参考