Files
myWiki/concepts/recurrent-transformer-architectures.md

45 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "循环Transformer架构 (Recurrent Transformer Architectures)"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: [transformers, recurrence, architecture]
sources:
- mozer-topological-trouble-transformers-2026
---
# 循环Transformer架构 (Recurrent Transformer Architectures)
循环 Transformer 架构是将**循环连接**引入 Transformer 以克服其[[feedforward-depth-limitation|前馈深度局限]]的一类模型设计Mozer et al., 2026
## 为什么需要循环
纯前馈 Transformer 的状态追踪存在根本性的深度限制。循环允许信号从深层回流到浅层,实现:
- **无界状态传播**s_t 不随 t 线性上移
- **隐式激活动力学**:类似人脑的自动、无意识状态维护
- **持续的信念更新**:不依赖外化 token 即保持环境表征
## 核心设计空间
Mozer et al. 提出按两个维度分类(见 [[recurrence-taxonomy|循环分类法]]
1. **循环轴**:深度方向、步方向、或两者
2. **每循环步输入 token 数**>1压缩/块状)、=1标准<1多步思考
## 关键区别
并非所有"循环"架构都能真正追踪状态
- **深度循环**looped transformer增加表达能力但状态仍上移无法无限追踪
- **步级循环**SSM 允许层内状态横向传播
- **深度+步级循环**最全状态追踪能力
最流行的循环形式 SSM 的线性更新并不比标准 Transformer 更具表达能力Merrill et al., 2025)。
## 参考
- [[recurrence-taxonomy|循环分类法]]
- [[depth-recurrence|深度循环]]
- [[step-recurrence|步级循环]]
- [[state-tracking|状态追踪]]
- [[mozer-topological-trouble-transformers-2026]]