3.5 KiB
3.5 KiB
title, created, updated, type, authors, source, source_id, published, categories
| title | created | updated | type | authors | source | source_id | published | categories | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| The Topological Trouble With Transformers | 2026-06-18 | 2026-06-18 | paper |
|
arXiv | 2604.17121 | 2026-04-18 |
|
The Topological Trouble With Transformers
Mozer, Siddiqui & Liu (2026) — arXiv:2604.17121
核心问题
Transformer 的纯前馈架构从根本上限制了动态状态追踪——即迭代更新反映变化环境的潜变量。前馈模型每处理一个新输入,状态表示就被推到更深的层,最终耗尽模型深度。
关键论证
1. 拓扑性限制
Transformer 的前馈拓扑结构天然与状态追踪的迭代本质冲突:
s_t = f(s_{t-1}, x_t)要求新状态依赖前序状态- 但前馈架构迫使
s_t在比s_{t-1}更深的层中 - 经 t 步后,浅层无法访问最新的状态信息
2. 实证失败模式
- Twenty Questions 不一致:模型无法维持一致的隐藏状态
- 多义词翻转(bank → river bank / money bank):消歧在深层完成但浅层已做出错误预测
- 多轮对话崩溃、多智能体通信断裂
3. Chain-of-Thought 是变通方案,不是解决方案
显式思考将深层表示外化为 token 再注入——但这是对结构缺陷的低效绕行:
"如果认知能从显式思维轨迹转向隐式激活动力学,模型将更强大"
核心贡献:循环 Transformer 分类法
按两个维度系统化分类:
| ↓ 循环轴 / 比例 → | 比例 > 1 | 比例 = 1 | 比例 < 1 |
|---|---|---|---|
| 深度 | Looped Transformer, RINS | — | — |
| 步级 | Block-Recurrent | Mamba, DeltaNet, RWKV-7 | — |
| 深度+步级 | RINs, Recurrent Memory | Feedback Transformer | COCONUT, Hierarchical Reasoning |
分类表中的空单元格是有前景的研究方向。
五大研究方向
- enhanced-state-space-models:DeltaNet 负特征值扩展、RWKV-7、PaTH Attention
- 前馈近似训练:通过特殊训练目标和结构先验引导状态追踪
- coarse-grained-recurrence:句子/块级别而非 token 级别
- representational-alignment:利用残差连接的自然对齐降低循环适配成本
- 高效循环训练:分阶段训练 + 截断梯度 + 循环反向传播
关键概念网络
- state-tracking → feedforward-depth-limitation → depth-dilemma
- recurrent-transformer-architectures → recurrence-taxonomy → depth-recurrence / step-recurrence
- sequential-dependency → autoregressive-unrolling
- belief-state → attractor-dynamics
- latent-thought-models ↔ coarse-grained-recurrence
- state-space-models → enhanced-state-space-models
影响力评估
这是一篇立场性综述(position paper),来自 Google DeepMind 三位研究者。核心贡献不是新算法,而是提供了理解 Transformer 局限性及其循环解决方案的统一概念框架。分类法和"深度困境"概念具有持久的架构设计指导价值。