Files
myWiki/concepts/sequential-dependency.md

1.5 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
顺序依赖 (Sequential Dependency) 2026-06-18 2026-06-18 concept
transformers
recurrence
parallelization
training
mozer-topological-trouble-transformers-2026

顺序依赖 (Sequential Dependency)

顺序依赖是指状态追踪所必需的串行计算约束——这种依赖性排除了跨序列长度的完全并行化Mozer et al., 2026

本质

任意状态更新函数 s_t = f(s_{t-1}, x_t) 存在本质的顺序瓶颈:

  • s_t 的计算必须等待 s_{t-1} 完成
  • 这是状态追踪的定义性特征,不是实现细节

在训练中的体现

  • Teacher Forcing 的问题:标准 Transformer 训练时所有 token 并行处理——这是状态追踪能力差的根因
  • 自回归展开 (Autoregressive Unrolling)真正的循环需要即使在训练时也按步展开Teoh et al., 2025b
  • Mozer et al. 的定义"循环步"严格定义为训练期间排除跨序列并行化的顺序依赖

对不同架构的影响

架构 训练并行化 状态追踪能力
纯前馈 Transformer 完全并行 受深度限制
深度循环 (Looped) 完全并行 受深度限制
线性 SSM 可并行(关联扫描) 不超过 Transformer
真循环架构 需部分串行 无界状态追踪

参考