20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/papers/mozer-topological-trouble-transformers-2026.md
+++ b/papers/mozer-topological-trouble-transformers-2026.md
@@ -0,0 +1,78 @@
+---
+title: "The Topological Trouble With Transformers"
+created: 2026-06-18
+updated: 2026-06-18
+type: paper
+authors:
+  - Michael C. Mozer (Google DeepMind)
+  - Shoaib Ahmed Siddiqui (Google DeepMind)
+  - Rosanne Liu (Google DeepMind)
+source: arXiv
+source_id: 2604.17121
+published: 2026-04-18
+categories:
+  - cs.LG
+  - cs.AI
+---
+
+# The Topological Trouble With Transformers
+
+> Mozer, Siddiqui & Liu (2026) — arXiv:2604.17121
+
+## 核心问题
+
+Transformer 的**纯前馈架构**从根本上限制了**动态状态追踪**——即迭代更新反映变化环境的潜变量。前馈模型每处理一个新输入，状态表示就被推到更深的层，最终耗尽模型深度。
+
+## 关键论证
+
+### 1. 拓扑性限制
+Transformer 的前馈拓扑结构天然与状态追踪的**迭代本质**冲突：
+- `s_t = f(s_{t-1}, x_t)` 要求新状态依赖前序状态
+- 但前馈架构迫使 `s_t` 在比 `s_{t-1}` 更深的层中
+- 经 t 步后，浅层无法访问最新的状态信息
+
+### 2. 实证失败模式
+- **Twenty Questions 不一致**：模型无法维持一致的隐藏状态
+- **多义词翻转**（bank → river bank / money bank）：消歧在深层完成但浅层已做出错误预测
+- **多轮对话崩溃**、多智能体通信断裂
+
+### 3. Chain-of-Thought 是变通方案，不是解决方案
+显式思考将深层表示外化为 token 再注入——但这是对结构缺陷的低效绕行：
+> "如果认知能从显式思维轨迹转向隐式激活动力学，模型将更强大"
+
+## 核心贡献：循环 Transformer 分类法
+
+按两个维度系统化分类：
+
+| ↓ 循环轴 / 比例 → | 比例 > 1 | 比例 = 1 | 比例 < 1 |
+|---|---|---|---|
+| **深度** | Looped Transformer, RINS | — | — |
+| **步级** | Block-Recurrent | Mamba, DeltaNet, RWKV-7 | — |
+| **深度+步级** | RINs, Recurrent Memory | Feedback Transformer | COCONUT, Hierarchical Reasoning |
+
+分类表中的空单元格是**有前景的研究方向**。
+
+## 五大研究方向
+
+1. **[[enhanced-state-space-models|增强状态空间模型]]**：DeltaNet 负特征值扩展、RWKV-7、PaTH Attention
+2. **前馈近似训练**：通过特殊训练目标和结构先验引导状态追踪
+3. **[[coarse-grained-recurrence|粗粒度循环]]**：句子/块级别而非 token 级别
+4. **[[representational-alignment|表征对齐]]**：利用残差连接的自然对齐降低循环适配成本
+5. **高效循环训练**：分阶段训练 + 截断梯度 + 循环反向传播
+
+## 关键概念网络
+
+- [[state-tracking|状态追踪]] → [[feedforward-depth-limitation|前馈深度局限]] → [[depth-dilemma|深度困境]]
+- [[recurrent-transformer-architectures|循环 Transformer]] → [[recurrence-taxonomy|循环分类法]] → [[depth-recurrence|深度循环]] / [[step-recurrence|步级循环]]
+- [[sequential-dependency|顺序依赖]] → [[autoregressive-unrolling|自回归展开]]
+- [[belief-state|信念状态]] → [[attractor-dynamics|吸引子动力学]]
+- [[latent-thought-models|隐式思考模型]] ↔ [[coarse-grained-recurrence|粗粒度循环]]
+- [[state-space-models|状态空间模型]] → [[enhanced-state-space-models|增强 SSM]]
+
+## 影响力评估
+
+这是一篇**立场性综述（position paper）**，来自 Google DeepMind 三位研究者。核心贡献不是新算法，而是提供了理解 Transformer 局限性及其循环解决方案的**统一概念框架**。分类法和"深度困境"概念具有持久的架构设计指导价值。
+
+## 来源
+
+[arXiv:2604.17121](https://arxiv.org/abs/2604.17121) | [原始存档](raw/papers/mozer-topological-trouble-transformers-2026.md)