---
title: "Continuous Thought Machines (CTM)"
created: 2026-05-15
updated: 2026-05-15
type: paper
tags: [neural-architecture, temporal-dynamics, biological-plausibility, synchronization, recurrence]
sources: [raw/papers/darlow-ctm-2025.md]
---

# Continuous Thought Machines (CTM)

**Luke Darlow, Ciaran Regan, Sebastian Risi, Jeffrey Seely, Llion Jones** — Sakana AI, University of Tsukuba, IT University of Copenhagen  
**arXiv:** [2505.05522v4](https://arxiv.org/abs/2505.05522) | cs.LG | **NeurIPS 2025**

> Llion Jones 是 "Attention Is All You Need" 的合著者之一。

## 核心问题

**生物大脑**依赖复杂的时态神经动力学处理信息，而**人工神经网络**有意抽象掉了单个神经元的时序复杂性以简化大规模训练。这种抽象虽然有效，但导致了灵活人类认知与当前 AI 能力之间的鸿沟。

CTM 的核心赌注：**将时间重新引入神经计算是推进 AI 的关键**。

## 两大创新

### 1. [[neuron-level-models|Neuron-Level Models (NLMs)]]
每个神经元拥有**私有的权重参数**（深度为 1 的 MLP），处理其 M 步 [[pre-activation-history|前激活历史]] 以产生复杂的时态动力学。与传统激活函数（ReLU/GELU 对所有神经元统一）形成鲜明对比。

### 2. [[neural-synchronization|Neural Synchronization as Representation]]
直接将神经元群体活动的时序相关性（激活历史的**内积**）作为潜在表示，用于注意力查询（qt）和输出预测（yt）。这与传统网络在单个时间点的"快照"表示根本不同。

## 架构

```
Input → FeatureExtractor → Cross-Attention ← qt (from sync)
                                ↓ ot
Synapse Model → at (pre-activations) → NLMs → zt+1 (post-activations)
    ↑                                               ↓
    └────────── concat(zt, ot) ←────────────────────┘
                                → Sync Matrix St
```

### 关键组件

| 组件 | 作用 |
|------|------|
| [[internal-ticks|Internal Ticks]] | 与数据维度解耦的内部时序 t∈{1,...,T}，实现迭代精炼 |
| [[synapse-model|Synapse Model]] | U-Net 风格 MLP，神经元间信息共享的循环结构 |
| [[neuron-level-models|NLMs]] | 每个神经元的私有 MLP，处理前激活历史 |
| [[neural-synchronization|Sync Matrix]] | 激活历史内积 S^t = Z^t·(Z^t)⊺ |
| [[neuron-pairing|Neuron Pairing]] | 对 O(D²) 同步矩阵的子采样策略，选出 Dout/Daction 对 |
| [[temporal-decay-neural|Temporal Decay r_ij]] | 每对神经元可学习的指数衰减，控制时间尺度 |

### [[certainty-based-loss|Certainty-Based Loss]]

不固定使用某个内部 tick 的输出，而是动态选择：
- **t₁ = argmin(L)** — 损失最小的 tick
- **t₂ = argmax(C)** — 确定性最高的 tick

L = (L_t₁ + L_t₂) / 2，实现**原生自适应计算**（无需单独 halting 模块）。

## 实验亮点

### 🧩 2D Mazes（39×39 → 99×99）
- **无位置编码**，需构建 [[internal-world-model|内部世界模型]]
- 显著优于 LSTM/FF 基线
- **涌现泛化**：训练于 100 步路径，可泛化到更远路径和更大的 99×99 迷宫

### 🖼️ ImageNet-1K 分类
- 原生 [[adaptive-computation-time|自适应计算]]：简单样本可在 <10 ticks 停止
- **自然校准**（calibration）：无需专门技术即达到优秀校准
- 涌现"环顾四周"(look around) 行为：模型在没有训练信号的情况下学习顺序扫描图像

### 🧮 Parity 计算
- 学习**可解释的算法策略**（如周期性重置、前瞻性预测）
- CTM 在 64 位序列上显著优于 LSTM

## 关键洞察

1. **从"统一激活函数"到"私有神经元模型"**：这不仅是架构创新，更是对神经元抽象层次的重新思考
2. **同步作为表示**：将时序相关性直接用作表示，开辟了高基数表示空间，天然适合捕获"思考"的时序特征
3. **不要位置编码**：CTM 完全通过内部动态建立空间理解，暗示时间可能是比空间更基础的表示维度
4. **涌现属性丰富**：适应性计算、校准、环顾四周、行波——均无专门设计，从同一核心架构自然涌现

## 相关概念

- [[adaptive-computation-time|Adaptive Computation Time (ACT)]] 的传统方案需要显式 halting 模块，CTM 通过 loss 设计自然实现
- [[internal-world-model|Internal World Models]]：Ha & Schmidhuber (2018) 的经典概念
- 与 [[spiking-neural-networks|SNN]] 的关系：共享生物学灵感但路径不同——CTM 使用连续值 + 梯度优化，SNN 使用离散脉冲 + 事件驱动