20260625:很多新内容

This commit is contained in:
2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions

View File

@@ -0,0 +1,78 @@
---
title: "The Topological Trouble With Transformers"
created: 2026-06-18
updated: 2026-06-18
type: paper
authors:
- Michael C. Mozer (Google DeepMind)
- Shoaib Ahmed Siddiqui (Google DeepMind)
- Rosanne Liu (Google DeepMind)
source: arXiv
source_id: 2604.17121
published: 2026-04-18
categories:
- cs.LG
- cs.AI
---
# The Topological Trouble With Transformers
> Mozer, Siddiqui & Liu (2026) — arXiv:2604.17121
## 核心问题
Transformer 的**纯前馈架构**从根本上限制了**动态状态追踪**——即迭代更新反映变化环境的潜变量。前馈模型每处理一个新输入,状态表示就被推到更深的层,最终耗尽模型深度。
## 关键论证
### 1. 拓扑性限制
Transformer 的前馈拓扑结构天然与状态追踪的**迭代本质**冲突:
- `s_t = f(s_{t-1}, x_t)` 要求新状态依赖前序状态
- 但前馈架构迫使 `s_t` 在比 `s_{t-1}` 更深的层中
- 经 t 步后,浅层无法访问最新的状态信息
### 2. 实证失败模式
- **Twenty Questions 不一致**:模型无法维持一致的隐藏状态
- **多义词翻转**bank → river bank / money bank消歧在深层完成但浅层已做出错误预测
- **多轮对话崩溃**、多智能体通信断裂
### 3. Chain-of-Thought 是变通方案,不是解决方案
显式思考将深层表示外化为 token 再注入——但这是对结构缺陷的低效绕行:
> "如果认知能从显式思维轨迹转向隐式激活动力学,模型将更强大"
## 核心贡献:循环 Transformer 分类法
按两个维度系统化分类:
| ↓ 循环轴 / 比例 → | 比例 > 1 | 比例 = 1 | 比例 < 1 |
|---|---|---|---|
| **深度** | Looped Transformer, RINS | | |
| **步级** | Block-Recurrent | Mamba, DeltaNet, RWKV-7 | |
| **深度+步级** | RINs, Recurrent Memory | Feedback Transformer | COCONUT, Hierarchical Reasoning |
分类表中的空单元格是**有前景的研究方向**。
## 五大研究方向
1. **[[enhanced-state-space-models|增强状态空间模型]]**DeltaNet 负特征值扩展RWKV-7PaTH Attention
2. **前馈近似训练**通过特殊训练目标和结构先验引导状态追踪
3. **[[coarse-grained-recurrence|粗粒度循环]]**句子/块级别而非 token 级别
4. **[[representational-alignment|表征对齐]]**利用残差连接的自然对齐降低循环适配成本
5. **高效循环训练**分阶段训练 + 截断梯度 + 循环反向传播
## 关键概念网络
- [[state-tracking|状态追踪]] [[feedforward-depth-limitation|前馈深度局限]] [[depth-dilemma|深度困境]]
- [[recurrent-transformer-architectures|循环 Transformer]] [[recurrence-taxonomy|循环分类法]] [[depth-recurrence|深度循环]] / [[step-recurrence|步级循环]]
- [[sequential-dependency|顺序依赖]] [[autoregressive-unrolling|自回归展开]]
- [[belief-state|信念状态]] [[attractor-dynamics|吸引子动力学]]
- [[latent-thought-models|隐式思考模型]] [[coarse-grained-recurrence|粗粒度循环]]
- [[state-space-models|状态空间模型]] [[enhanced-state-space-models|增强 SSM]]
## 影响力评估
这是一篇**立场性综述position paper**来自 Google DeepMind 三位研究者核心贡献不是新算法而是提供了理解 Transformer 局限性及其循环解决方案的**统一概念框架**。分类法和"深度困境"概念具有持久的架构设计指导价值
## 来源
[arXiv:2604.17121](https://arxiv.org/abs/2604.17121) | [原始存档](raw/papers/mozer-topological-trouble-transformers-2026.md)