1.7 KiB
1.7 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| 循环Transformer架构 (Recurrent Transformer Architectures) | 2026-06-18 | 2026-06-18 | concept |
|
|
循环Transformer架构 (Recurrent Transformer Architectures)
循环 Transformer 架构是将循环连接引入 Transformer 以克服其feedforward-depth-limitation的一类模型设计(Mozer et al., 2026)。
为什么需要循环
纯前馈 Transformer 的状态追踪存在根本性的深度限制。循环允许信号从深层回流到浅层,实现:
- 无界状态传播:s_t 不随 t 线性上移
- 隐式激活动力学:类似人脑的自动、无意识状态维护
- 持续的信念更新:不依赖外化 token 即保持环境表征
核心设计空间
Mozer et al. 提出按两个维度分类(见 recurrence-taxonomy):
- 循环轴:深度方向、步方向、或两者
- 每循环步输入 token 数:>1(压缩/块状)、=1(标准)、<1(多步思考)
关键区别
并非所有"循环"架构都能真正追踪状态:
- 深度循环(looped transformer):增加表达能力,但状态仍上移,无法无限追踪
- 步级循环(SSM 类):允许层内状态横向传播
- 深度+步级循环:最全状态追踪能力
最流行的循环形式(如 SSM 的线性更新)并不比标准 Transformer 更具表达能力(Merrill et al., 2025)。