Continuous Thought Machines (CTM)

Luke Darlow, Ciaran Regan, Sebastian Risi, Jeffrey Seely, Llion Jones — Sakana AI, University of Tsukuba, IT University of Copenhagen
arXiv: 2505.05522v4 | cs.LG | NeurIPS 2025

Llion Jones 是 "Attention Is All You Need" 的合著者之一。

核心问题

生物大脑依赖复杂的时态神经动力学处理信息，而人工神经网络有意抽象掉了单个神经元的时序复杂性以简化大规模训练。这种抽象虽然有效，但导致了灵活人类认知与当前 AI 能力之间的鸿沟。

CTM 的核心赌注：将时间重新引入神经计算是推进 AI 的关键。

两大创新

1. neuron-level-models

每个神经元拥有私有的权重参数（深度为 1 的 MLP），处理其 M 步 pre-activation-history 以产生复杂的时态动力学。与传统激活函数（ReLU/GELU 对所有神经元统一）形成鲜明对比。

2. neural-synchronization

直接将神经元群体活动的时序相关性（激活历史的内积）作为潜在表示，用于注意力查询（qt）和输出预测（yt）。这与传统网络在单个时间点的"快照"表示根本不同。

架构

Input → FeatureExtractor → Cross-Attention ← qt (from sync)
                                ↓ ot
Synapse Model → at (pre-activations) → NLMs → zt+1 (post-activations)
    ↑                                               ↓
    └────────── concat(zt, ot) ←────────────────────┘
                                → Sync Matrix St

关键组件

组件	作用
[[internal-ticks	Internal Ticks]]
[[synapse-model	Synapse Model]]
[[neuron-level-models	NLMs]]
[[neural-synchronization	Sync Matrix]]
[[neuron-pairing	Neuron Pairing]]
[[temporal-decay-neural	Temporal Decay r_ij]]

certainty-based-loss

不固定使用某个内部 tick 的输出，而是动态选择：

t₁ = argmin(L) — 损失最小的 tick
t₂ = argmax(C) — 确定性最高的 tick

L = (L_t₁ + L_t₂) / 2，实现原生自适应计算（无需单独 halting 模块）。

实验亮点

🧩 2D Mazes（39×39 → 99×99）

无位置编码，需构建 internal-world-model
显著优于 LSTM/FF 基线
涌现泛化：训练于 100 步路径，可泛化到更远路径和更大的 99×99 迷宫

🖼️ ImageNet-1K 分类

原生 adaptive-computation-time：简单样本可在 <10 ticks 停止
自然校准（calibration）：无需专门技术即达到优秀校准
涌现"环顾四周"(look around) 行为：模型在没有训练信号的情况下学习顺序扫描图像

🧮 Parity 计算

学习可解释的算法策略（如周期性重置、前瞻性预测）
CTM 在 64 位序列上显著优于 LSTM

关键洞察

从"统一激活函数"到"私有神经元模型"：这不仅是架构创新，更是对神经元抽象层次的重新思考
同步作为表示：将时序相关性直接用作表示，开辟了高基数表示空间，天然适合捕获"思考"的时序特征
不要位置编码：CTM 完全通过内部动态建立空间理解，暗示时间可能是比空间更基础的表示维度
涌现属性丰富：适应性计算、校准、环顾四周、行波——均无专门设计，从同一核心架构自然涌现

4.6 KiB Raw Blame History Unescape Escape