myWiki/papers/mozer-topological-trouble-transformers-2026.md

---
title: "The Topological Trouble With Transformers"
created: 2026-06-18
updated: 2026-06-18
type: paper
authors:
  - Michael C. Mozer (Google DeepMind)
  - Shoaib Ahmed Siddiqui (Google DeepMind)
  - Rosanne Liu (Google DeepMind)
source: arXiv
source_id: 2604.17121
published: 2026-04-18
categories:
  - cs.LG
  - cs.AI
---

# The Topological Trouble With Transformers

> Mozer, Siddiqui & Liu (2026) — arXiv:2604.17121

## 核心问题

Transformer 的**纯前馈架构**从根本上限制了**动态状态追踪**——即迭代更新反映变化环境的潜变量。前馈模型每处理一个新输入，状态表示就被推到更深的层，最终耗尽模型深度。

## 关键论证

### 1. 拓扑性限制
Transformer 的前馈拓扑结构天然与状态追踪的**迭代本质**冲突：
- `s_t = f(s_{t-1}, x_t)` 要求新状态依赖前序状态
- 但前馈架构迫使 `s_t` 在比 `s_{t-1}` 更深的层中
- 经 t 步后，浅层无法访问最新的状态信息

### 2. 实证失败模式
- **Twenty Questions 不一致**：模型无法维持一致的隐藏状态
- **多义词翻转**（bank → river bank / money bank）：消歧在深层完成但浅层已做出错误预测
- **多轮对话崩溃**、多智能体通信断裂

### 3. Chain-of-Thought 是变通方案，不是解决方案
显式思考将深层表示外化为 token 再注入——但这是对结构缺陷的低效绕行：
> "如果认知能从显式思维轨迹转向隐式激活动力学，模型将更强大"

## 核心贡献：循环 Transformer 分类法

按两个维度系统化分类：

| ↓ 循环轴 / 比例 → | 比例 > 1 | 比例 = 1 | 比例 < 1 |
|---|---|---|---|
| **深度** | Looped Transformer, RINS | — | — |
| **步级** | Block-Recurrent | Mamba, DeltaNet, RWKV-7 | — |
| **深度+步级** | RINs, Recurrent Memory | Feedback Transformer | COCONUT, Hierarchical Reasoning |

分类表中的空单元格是**有前景的研究方向**。

## 五大研究方向

1. **[[enhanced-state-space-models|增强状态空间模型]]**：DeltaNet 负特征值扩展、RWKV-7、PaTH Attention
2. **前馈近似训练**：通过特殊训练目标和结构先验引导状态追踪
3. **[[coarse-grained-recurrence|粗粒度循环]]**：句子/块级别而非 token 级别
4. **[[representational-alignment|表征对齐]]**：利用残差连接的自然对齐降低循环适配成本
5. **高效循环训练**：分阶段训练 + 截断梯度 + 循环反向传播

## 关键概念网络

- [[state-tracking|状态追踪]] → [[feedforward-depth-limitation|前馈深度局限]] → [[depth-dilemma|深度困境]]
- [[recurrent-transformer-architectures|循环 Transformer]] → [[recurrence-taxonomy|循环分类法]] → [[depth-recurrence|深度循环]] / [[step-recurrence|步级循环]]
- [[sequential-dependency|顺序依赖]] → [[autoregressive-unrolling|自回归展开]]
- [[belief-state|信念状态]] → [[attractor-dynamics|吸引子动力学]]
- [[latent-thought-models|隐式思考模型]] ↔ [[coarse-grained-recurrence|粗粒度循环]]
- [[state-space-models|状态空间模型]] → [[enhanced-state-space-models|增强 SSM]]

## 影响力评估

这是一篇**立场性综述（position paper）**，来自 Google DeepMind 三位研究者。核心贡献不是新算法，而是提供了理解 Transformer 局限性及其循环解决方案的**统一概念框架**。分类法和"深度困境"概念具有持久的架构设计指导价值。

## 来源

[arXiv:2604.17121](https://arxiv.org/abs/2604.17121) | [原始存档](raw/papers/mozer-topological-trouble-transformers-2026.md)