79 lines
3.5 KiB
Markdown
79 lines
3.5 KiB
Markdown
---
|
||
title: "The Topological Trouble With Transformers"
|
||
created: 2026-06-18
|
||
updated: 2026-06-18
|
||
type: paper
|
||
authors:
|
||
- Michael C. Mozer (Google DeepMind)
|
||
- Shoaib Ahmed Siddiqui (Google DeepMind)
|
||
- Rosanne Liu (Google DeepMind)
|
||
source: arXiv
|
||
source_id: 2604.17121
|
||
published: 2026-04-18
|
||
categories:
|
||
- cs.LG
|
||
- cs.AI
|
||
---
|
||
|
||
# The Topological Trouble With Transformers
|
||
|
||
> Mozer, Siddiqui & Liu (2026) — arXiv:2604.17121
|
||
|
||
## 核心问题
|
||
|
||
Transformer 的**纯前馈架构**从根本上限制了**动态状态追踪**——即迭代更新反映变化环境的潜变量。前馈模型每处理一个新输入,状态表示就被推到更深的层,最终耗尽模型深度。
|
||
|
||
## 关键论证
|
||
|
||
### 1. 拓扑性限制
|
||
Transformer 的前馈拓扑结构天然与状态追踪的**迭代本质**冲突:
|
||
- `s_t = f(s_{t-1}, x_t)` 要求新状态依赖前序状态
|
||
- 但前馈架构迫使 `s_t` 在比 `s_{t-1}` 更深的层中
|
||
- 经 t 步后,浅层无法访问最新的状态信息
|
||
|
||
### 2. 实证失败模式
|
||
- **Twenty Questions 不一致**:模型无法维持一致的隐藏状态
|
||
- **多义词翻转**(bank → river bank / money bank):消歧在深层完成但浅层已做出错误预测
|
||
- **多轮对话崩溃**、多智能体通信断裂
|
||
|
||
### 3. Chain-of-Thought 是变通方案,不是解决方案
|
||
显式思考将深层表示外化为 token 再注入——但这是对结构缺陷的低效绕行:
|
||
> "如果认知能从显式思维轨迹转向隐式激活动力学,模型将更强大"
|
||
|
||
## 核心贡献:循环 Transformer 分类法
|
||
|
||
按两个维度系统化分类:
|
||
|
||
| ↓ 循环轴 / 比例 → | 比例 > 1 | 比例 = 1 | 比例 < 1 |
|
||
|---|---|---|---|
|
||
| **深度** | Looped Transformer, RINS | — | — |
|
||
| **步级** | Block-Recurrent | Mamba, DeltaNet, RWKV-7 | — |
|
||
| **深度+步级** | RINs, Recurrent Memory | Feedback Transformer | COCONUT, Hierarchical Reasoning |
|
||
|
||
分类表中的空单元格是**有前景的研究方向**。
|
||
|
||
## 五大研究方向
|
||
|
||
1. **[[enhanced-state-space-models|增强状态空间模型]]**:DeltaNet 负特征值扩展、RWKV-7、PaTH Attention
|
||
2. **前馈近似训练**:通过特殊训练目标和结构先验引导状态追踪
|
||
3. **[[coarse-grained-recurrence|粗粒度循环]]**:句子/块级别而非 token 级别
|
||
4. **[[representational-alignment|表征对齐]]**:利用残差连接的自然对齐降低循环适配成本
|
||
5. **高效循环训练**:分阶段训练 + 截断梯度 + 循环反向传播
|
||
|
||
## 关键概念网络
|
||
|
||
- [[state-tracking|状态追踪]] → [[feedforward-depth-limitation|前馈深度局限]] → [[depth-dilemma|深度困境]]
|
||
- [[recurrent-transformer-architectures|循环 Transformer]] → [[recurrence-taxonomy|循环分类法]] → [[depth-recurrence|深度循环]] / [[step-recurrence|步级循环]]
|
||
- [[sequential-dependency|顺序依赖]] → [[autoregressive-unrolling|自回归展开]]
|
||
- [[belief-state|信念状态]] → [[attractor-dynamics|吸引子动力学]]
|
||
- [[latent-thought-models|隐式思考模型]] ↔ [[coarse-grained-recurrence|粗粒度循环]]
|
||
- [[state-space-models|状态空间模型]] → [[enhanced-state-space-models|增强 SSM]]
|
||
|
||
## 影响力评估
|
||
|
||
这是一篇**立场性综述(position paper)**,来自 Google DeepMind 三位研究者。核心贡献不是新算法,而是提供了理解 Transformer 局限性及其循环解决方案的**统一概念框架**。分类法和"深度困境"概念具有持久的架构设计指导价值。
|
||
|
||
## 来源
|
||
|
||
[arXiv:2604.17121](https://arxiv.org/abs/2604.17121) | [原始存档](raw/papers/mozer-topological-trouble-transformers-2026.md)
|