SidneyZhang/myWiki

Fork 0

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

3.1 KiB

Raw Blame History

title, created, updated, type, source

title	created	updated	type	source
Review: The Topological Trouble With Transformers	2026-06-18	2026-06-18	review	mozer-topological-trouble-transformers-2026

📌 基本信息

论文标题：The Topological Trouble With Transformers
作者：Michael C. Mozer, Shoaib Ahmed Siddiqui, Rosanne Liu (Google DeepMind)
领域：cs.LG, cs.AI
arXiv ID：2604.17121
类型：立场性综述 (Position Paper)
添加时间：2026-06-18

🎯 核心概念

state-tracking — 迭代更新反映变化环境的潜变量，是语言理解和推理的核心能力
feedforward-depth-limitation — 前馈架构迫使状态表示逐层上移，最终耗尽模型深度
recurrence-taxonomy — 两维度（循环轴 × 输入/循环步比例）系统化分类所有循环 Transformer 架构
depth-recurrence — 沿层深度轴的循环（Looped Transformer），增强表达力但状态仍上移
step-recurrence — 层内跨输入步的状态传播（Mamba, DeltaNet, RWKV-7）
enhanced-state-space-models — 超越标准 Transformer 表达力的 SSM（DeltaNet 负特征值扩展等）
latent-thought-models — 多步自回归处理单个 token，不消耗上下文窗口
coarse-grained-recurrence — 句子/块级别的循环，降低 token 级循环的计算负担

🔗 概念网络

核心连接

state-tracking ← feedforward-depth-limitation ← depth-dilemma
      ↓
recurrent-transformer-architectures ← recurrence-taxonomy
      ↓                    ↓
depth-recurrence    step-recurrence ← state-space-models
      ↓                    ↓
representational-alignment  enhanced-state-space-models
      ↓
attractor-dynamics ← latent-thought-models
      ↓
coarse-grained-recurrence → sequential-dependency → autoregressive-unrolling

扩展网络

连接了 16 个新增概念 + 复用 1 个已有概念（chain-of-thought）
核心链接密度：平均每概念 4-6 个双向链接
建立跨概念连接：深度↔步级、状态追踪↔信念状态、分类法↔架构成分

📚 Wiki 集成

新增页面：17 个（1 论文 + 16 概念）
复用页面：1 个（chain-of-thought）
链接完整性：待验证
总规模变化：增量 +17 页

💡 关键洞察

"拓扑性麻烦"的本质：Transformer 的问题不是"做不到"状态追踪，而是前馈拓扑的结构属性——状态必须逐层上移，这并非偶然的工程缺陷，而是架构的必然结果。这个洞察比任何具体解决方案都更有价值。
从外化到内化：论文最锐利的论点是：CoT 作为"对自己说话"的机制，对于深层消歧（如 bank 的词义）这类人类自动完成的微认知而言是怪异的。真正的方向是隐式激活动力学而非显式思维轨迹——这从根本上挑战了当前"更多 thinking tokens = 更好推理"的范式。

3.1 KiB Raw Blame History Unescape Escape

📌 基本信息

🎯 核心概念

🔗 概念网络

核心连接

扩展网络

📚 Wiki 集成

💡 关键洞察

3.1 KiB

Raw Blame History