20260625:很多新内容

This commit is contained in:
2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions

View File

@@ -0,0 +1,44 @@
---
title: "循环Transformer架构 (Recurrent Transformer Architectures)"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: [transformers, recurrence, architecture]
sources:
- mozer-topological-trouble-transformers-2026
---
# 循环Transformer架构 (Recurrent Transformer Architectures)
循环 Transformer 架构是将**循环连接**引入 Transformer 以克服其[[feedforward-depth-limitation|前馈深度局限]]的一类模型设计Mozer et al., 2026
## 为什么需要循环
纯前馈 Transformer 的状态追踪存在根本性的深度限制。循环允许信号从深层回流到浅层,实现:
- **无界状态传播**s_t 不随 t 线性上移
- **隐式激活动力学**:类似人脑的自动、无意识状态维护
- **持续的信念更新**:不依赖外化 token 即保持环境表征
## 核心设计空间
Mozer et al. 提出按两个维度分类(见 [[recurrence-taxonomy|循环分类法]]
1. **循环轴**:深度方向、步方向、或两者
2. **每循环步输入 token 数**>1压缩/块状)、=1标准<1多步思考
## 关键区别
并非所有"循环"架构都能真正追踪状态
- **深度循环**looped transformer增加表达能力但状态仍上移无法无限追踪
- **步级循环**SSM 允许层内状态横向传播
- **深度+步级循环**最全状态追踪能力
最流行的循环形式 SSM 的线性更新并不比标准 Transformer 更具表达能力Merrill et al., 2025)。
## 参考
- [[recurrence-taxonomy|循环分类法]]
- [[depth-recurrence|深度循环]]
- [[step-recurrence|步级循环]]
- [[state-tracking|状态追踪]]
- [[mozer-topological-trouble-transformers-2026]]