Files
myWiki/papers/mozer-topological-trouble-transformers-2026.md

3.5 KiB
Raw Blame History

title, created, updated, type, authors, source, source_id, published, categories
title created updated type authors source source_id published categories
The Topological Trouble With Transformers 2026-06-18 2026-06-18 paper
Michael C. Mozer (Google DeepMind)
Shoaib Ahmed Siddiqui (Google DeepMind)
Rosanne Liu (Google DeepMind)
arXiv 2604.17121 2026-04-18
cs.LG
cs.AI

The Topological Trouble With Transformers

Mozer, Siddiqui & Liu (2026) — arXiv:2604.17121

核心问题

Transformer 的纯前馈架构从根本上限制了动态状态追踪——即迭代更新反映变化环境的潜变量。前馈模型每处理一个新输入,状态表示就被推到更深的层,最终耗尽模型深度。

关键论证

1. 拓扑性限制

Transformer 的前馈拓扑结构天然与状态追踪的迭代本质冲突:

  • s_t = f(s_{t-1}, x_t) 要求新状态依赖前序状态
  • 但前馈架构迫使 s_t 在比 s_{t-1} 更深的层中
  • 经 t 步后,浅层无法访问最新的状态信息

2. 实证失败模式

  • Twenty Questions 不一致:模型无法维持一致的隐藏状态
  • 多义词翻转bank → river bank / money bank消歧在深层完成但浅层已做出错误预测
  • 多轮对话崩溃、多智能体通信断裂

3. Chain-of-Thought 是变通方案,不是解决方案

显式思考将深层表示外化为 token 再注入——但这是对结构缺陷的低效绕行:

"如果认知能从显式思维轨迹转向隐式激活动力学,模型将更强大"

核心贡献:循环 Transformer 分类法

按两个维度系统化分类:

↓ 循环轴 / 比例 → 比例 > 1 比例 = 1 比例 < 1
深度 Looped Transformer, RINS
步级 Block-Recurrent Mamba, DeltaNet, RWKV-7
深度+步级 RINs, Recurrent Memory Feedback Transformer COCONUT, Hierarchical Reasoning

分类表中的空单元格是有前景的研究方向

五大研究方向

  1. enhanced-state-space-modelsDeltaNet 负特征值扩展、RWKV-7、PaTH Attention
  2. 前馈近似训练:通过特殊训练目标和结构先验引导状态追踪
  3. coarse-grained-recurrence:句子/块级别而非 token 级别
  4. representational-alignment:利用残差连接的自然对齐降低循环适配成本
  5. 高效循环训练:分阶段训练 + 截断梯度 + 循环反向传播

关键概念网络

影响力评估

这是一篇立场性综述position paper,来自 Google DeepMind 三位研究者。核心贡献不是新算法,而是提供了理解 Transformer 局限性及其循环解决方案的统一概念框架。分类法和"深度困境"概念具有持久的架构设计指导价值。

来源

arXiv:2604.17121 | 原始存档