Files
myWiki/concepts/autoregressive-unrolling.md

53 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "自回归展开 (Autoregressive Unrolling)"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: [transformers, recurrence, training, teacher-forcing]
sources:
- mozer-topological-trouble-transformers-2026
---
# 自回归展开 (Autoregressive Unrolling)
自回归展开是 Mozer et al. (2026) 定义的关键概念:即使在 Teacher Forcing 训练下,循环模型也必须**按自回归步逐步展开**,而非完全并行处理。
## 与标准 Transformer 的区别
| | 标准 Transformer | 循环 Transformer需展开 |
|---|---|---|
| 训练时 | 所有 token 并行(一次前向) | 按步展开(串行或块状) |
| 推理时 | Token-by-token 自回归 | Token-by-token 自回归 |
| 状态传播 | 前馈(深度受限) | 循环(无界) |
## Mozer et al. 的精确定义
> "循环步"严格定义为训练期间排除跨序列并行化的**顺序依赖**——不是纯前馈模型 token-by-token 推理中的伪串行。
## 三种展开模式
### 图 5b深度展开Looped Transformer
- 块内并行,深度方向循环
- 状态仍受深度限制
### 图 5c块状展开Blockwise-Recurrent
- 固定长度 token 块内并行
- 块间串行传递状态
### 图 5d/图 6全自回归展开
- 一个或多个自回归步对应一个输入 token
- 真正无界状态追踪的关键
## 训练效率挑战
自回归展开是**必要的代价**——任何能在训练时完全并行化的模型其状态追踪能力都受限于其前馈深度Merrill et al., 2025
应对策略Mozer et al. 建议**分阶段训练**——先标准 Transformer 预训练,再引入循环机制。
## 参考
- [[sequential-dependency|顺序依赖]]
- [[recurrent-transformer-architectures|循环 Transformer 架构]]
- [[recurrence-taxonomy|循环分类法]]
- [[mozer-topological-trouble-transformers-2026]]