Files
myWiki/papers/mozer-topological-trouble-transformers-2026.md

79 lines
3.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "The Topological Trouble With Transformers"
created: 2026-06-18
updated: 2026-06-18
type: paper
authors:
- Michael C. Mozer (Google DeepMind)
- Shoaib Ahmed Siddiqui (Google DeepMind)
- Rosanne Liu (Google DeepMind)
source: arXiv
source_id: 2604.17121
published: 2026-04-18
categories:
- cs.LG
- cs.AI
---
# The Topological Trouble With Transformers
> Mozer, Siddiqui & Liu (2026) — arXiv:2604.17121
## 核心问题
Transformer 的**纯前馈架构**从根本上限制了**动态状态追踪**——即迭代更新反映变化环境的潜变量。前馈模型每处理一个新输入,状态表示就被推到更深的层,最终耗尽模型深度。
## 关键论证
### 1. 拓扑性限制
Transformer 的前馈拓扑结构天然与状态追踪的**迭代本质**冲突:
- `s_t = f(s_{t-1}, x_t)` 要求新状态依赖前序状态
- 但前馈架构迫使 `s_t` 在比 `s_{t-1}` 更深的层中
- 经 t 步后,浅层无法访问最新的状态信息
### 2. 实证失败模式
- **Twenty Questions 不一致**:模型无法维持一致的隐藏状态
- **多义词翻转**bank → river bank / money bank消歧在深层完成但浅层已做出错误预测
- **多轮对话崩溃**、多智能体通信断裂
### 3. Chain-of-Thought 是变通方案,不是解决方案
显式思考将深层表示外化为 token 再注入——但这是对结构缺陷的低效绕行:
> "如果认知能从显式思维轨迹转向隐式激活动力学,模型将更强大"
## 核心贡献:循环 Transformer 分类法
按两个维度系统化分类:
| ↓ 循环轴 / 比例 → | 比例 > 1 | 比例 = 1 | 比例 < 1 |
|---|---|---|---|
| **深度** | Looped Transformer, RINS | | |
| **步级** | Block-Recurrent | Mamba, DeltaNet, RWKV-7 | |
| **深度+步级** | RINs, Recurrent Memory | Feedback Transformer | COCONUT, Hierarchical Reasoning |
分类表中的空单元格是**有前景的研究方向**。
## 五大研究方向
1. **[[enhanced-state-space-models|增强状态空间模型]]**DeltaNet 负特征值扩展RWKV-7PaTH Attention
2. **前馈近似训练**通过特殊训练目标和结构先验引导状态追踪
3. **[[coarse-grained-recurrence|粗粒度循环]]**句子/块级别而非 token 级别
4. **[[representational-alignment|表征对齐]]**利用残差连接的自然对齐降低循环适配成本
5. **高效循环训练**分阶段训练 + 截断梯度 + 循环反向传播
## 关键概念网络
- [[state-tracking|状态追踪]] [[feedforward-depth-limitation|前馈深度局限]] [[depth-dilemma|深度困境]]
- [[recurrent-transformer-architectures|循环 Transformer]] [[recurrence-taxonomy|循环分类法]] [[depth-recurrence|深度循环]] / [[step-recurrence|步级循环]]
- [[sequential-dependency|顺序依赖]] [[autoregressive-unrolling|自回归展开]]
- [[belief-state|信念状态]] [[attractor-dynamics|吸引子动力学]]
- [[latent-thought-models|隐式思考模型]] [[coarse-grained-recurrence|粗粒度循环]]
- [[state-space-models|状态空间模型]] [[enhanced-state-space-models|增强 SSM]]
## 影响力评估
这是一篇**立场性综述position paper**来自 Google DeepMind 三位研究者核心贡献不是新算法而是提供了理解 Transformer 局限性及其循环解决方案的**统一概念框架**。分类法和"深度困境"概念具有持久的架构设计指导价值
## 来源
[arXiv:2604.17121](https://arxiv.org/abs/2604.17121) | [原始存档](raw/papers/mozer-topological-trouble-transformers-2026.md)