--- title: "The Topological Trouble With Transformers" created: 2026-06-18 updated: 2026-06-18 type: paper authors: - Michael C. Mozer (Google DeepMind) - Shoaib Ahmed Siddiqui (Google DeepMind) - Rosanne Liu (Google DeepMind) source: arXiv source_id: 2604.17121 published: 2026-04-18 categories: - cs.LG - cs.AI --- # The Topological Trouble With Transformers > Mozer, Siddiqui & Liu (2026) — arXiv:2604.17121 ## 核心问题 Transformer 的**纯前馈架构**从根本上限制了**动态状态追踪**——即迭代更新反映变化环境的潜变量。前馈模型每处理一个新输入,状态表示就被推到更深的层,最终耗尽模型深度。 ## 关键论证 ### 1. 拓扑性限制 Transformer 的前馈拓扑结构天然与状态追踪的**迭代本质**冲突: - `s_t = f(s_{t-1}, x_t)` 要求新状态依赖前序状态 - 但前馈架构迫使 `s_t` 在比 `s_{t-1}` 更深的层中 - 经 t 步后,浅层无法访问最新的状态信息 ### 2. 实证失败模式 - **Twenty Questions 不一致**:模型无法维持一致的隐藏状态 - **多义词翻转**(bank → river bank / money bank):消歧在深层完成但浅层已做出错误预测 - **多轮对话崩溃**、多智能体通信断裂 ### 3. Chain-of-Thought 是变通方案,不是解决方案 显式思考将深层表示外化为 token 再注入——但这是对结构缺陷的低效绕行: > "如果认知能从显式思维轨迹转向隐式激活动力学,模型将更强大" ## 核心贡献:循环 Transformer 分类法 按两个维度系统化分类: | ↓ 循环轴 / 比例 → | 比例 > 1 | 比例 = 1 | 比例 < 1 | |---|---|---|---| | **深度** | Looped Transformer, RINS | — | — | | **步级** | Block-Recurrent | Mamba, DeltaNet, RWKV-7 | — | | **深度+步级** | RINs, Recurrent Memory | Feedback Transformer | COCONUT, Hierarchical Reasoning | 分类表中的空单元格是**有前景的研究方向**。 ## 五大研究方向 1. **[[enhanced-state-space-models|增强状态空间模型]]**:DeltaNet 负特征值扩展、RWKV-7、PaTH Attention 2. **前馈近似训练**:通过特殊训练目标和结构先验引导状态追踪 3. **[[coarse-grained-recurrence|粗粒度循环]]**:句子/块级别而非 token 级别 4. **[[representational-alignment|表征对齐]]**:利用残差连接的自然对齐降低循环适配成本 5. **高效循环训练**:分阶段训练 + 截断梯度 + 循环反向传播 ## 关键概念网络 - [[state-tracking|状态追踪]] → [[feedforward-depth-limitation|前馈深度局限]] → [[depth-dilemma|深度困境]] - [[recurrent-transformer-architectures|循环 Transformer]] → [[recurrence-taxonomy|循环分类法]] → [[depth-recurrence|深度循环]] / [[step-recurrence|步级循环]] - [[sequential-dependency|顺序依赖]] → [[autoregressive-unrolling|自回归展开]] - [[belief-state|信念状态]] → [[attractor-dynamics|吸引子动力学]] - [[latent-thought-models|隐式思考模型]] ↔ [[coarse-grained-recurrence|粗粒度循环]] - [[state-space-models|状态空间模型]] → [[enhanced-state-space-models|增强 SSM]] ## 影响力评估 这是一篇**立场性综述(position paper)**,来自 Google DeepMind 三位研究者。核心贡献不是新算法,而是提供了理解 Transformer 局限性及其循环解决方案的**统一概念框架**。分类法和"深度困境"概念具有持久的架构设计指导价值。 ## 来源 [arXiv:2604.17121](https://arxiv.org/abs/2604.17121) | [原始存档](raw/papers/mozer-topological-trouble-transformers-2026.md)