--- title: "循环Transformer架构 (Recurrent Transformer Architectures)" created: 2026-06-18 updated: 2026-06-18 type: concept tags: [transformers, recurrence, architecture] sources: - mozer-topological-trouble-transformers-2026 --- # 循环Transformer架构 (Recurrent Transformer Architectures) 循环 Transformer 架构是将**循环连接**引入 Transformer 以克服其[[feedforward-depth-limitation|前馈深度局限]]的一类模型设计(Mozer et al., 2026)。 ## 为什么需要循环 纯前馈 Transformer 的状态追踪存在根本性的深度限制。循环允许信号从深层回流到浅层,实现: - **无界状态传播**:s_t 不随 t 线性上移 - **隐式激活动力学**:类似人脑的自动、无意识状态维护 - **持续的信念更新**:不依赖外化 token 即保持环境表征 ## 核心设计空间 Mozer et al. 提出按两个维度分类(见 [[recurrence-taxonomy|循环分类法]]): 1. **循环轴**:深度方向、步方向、或两者 2. **每循环步输入 token 数**:>1(压缩/块状)、=1(标准)、<1(多步思考) ## 关键区别 并非所有"循环"架构都能真正追踪状态: - **深度循环**(looped transformer):增加表达能力,但状态仍上移,无法无限追踪 - **步级循环**(SSM 类):允许层内状态横向传播 - **深度+步级循环**:最全状态追踪能力 最流行的循环形式(如 SSM 的线性更新)并不比标准 Transformer 更具表达能力(Merrill et al., 2025)。 ## 参考 - [[recurrence-taxonomy|循环分类法]] - [[depth-recurrence|深度循环]] - [[step-recurrence|步级循环]] - [[state-tracking|状态追踪]] - [[mozer-topological-trouble-transformers-2026]]