The Topological Trouble With Transformers

Mozer, Siddiqui & Liu (2026) — arXiv:2604.17121

核心问题

Transformer 的纯前馈架构从根本上限制了动态状态追踪——即迭代更新反映变化环境的潜变量。前馈模型每处理一个新输入，状态表示就被推到更深的层，最终耗尽模型深度。

Transformer 的前馈拓扑结构天然与状态追踪的迭代本质冲突：

显式思考将深层表示外化为 token 再注入——但这是对结构缺陷的低效绕行：

"如果认知能从显式思维轨迹转向隐式激活动力学，模型将更强大"

按两个维度系统化分类：

↓ 循环轴 / 比例 →	比例 > 1	比例 = 1	比例 < 1
深度	Looped Transformer, RINS	—	—
步级	Block-Recurrent	Mamba, DeltaNet, RWKV-7	—
深度+步级	RINs, Recurrent Memory	Feedback Transformer	COCONUT, Hierarchical Reasoning

分类表中的空单元格是有前景的研究方向。

这是一篇立场性综述（position paper），来自 Google DeepMind 三位研究者。核心贡献不是新算法，而是提供了理解 Transformer 局限性及其循环解决方案的统一概念框架。分类法和"深度困境"概念具有持久的架构设计指导价值。