4.6 KiB
4.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Continuous Thought Machines (CTM) | 2026-05-15 | 2026-05-15 | paper |
|
|
Continuous Thought Machines (CTM)
Luke Darlow, Ciaran Regan, Sebastian Risi, Jeffrey Seely, Llion Jones — Sakana AI, University of Tsukuba, IT University of Copenhagen
arXiv: 2505.05522v4 | cs.LG | NeurIPS 2025
Llion Jones 是 "Attention Is All You Need" 的合著者之一。
核心问题
生物大脑依赖复杂的时态神经动力学处理信息,而人工神经网络有意抽象掉了单个神经元的时序复杂性以简化大规模训练。这种抽象虽然有效,但导致了灵活人类认知与当前 AI 能力之间的鸿沟。
CTM 的核心赌注:将时间重新引入神经计算是推进 AI 的关键。
两大创新
1. neuron-level-models
每个神经元拥有私有的权重参数(深度为 1 的 MLP),处理其 M 步 pre-activation-history 以产生复杂的时态动力学。与传统激活函数(ReLU/GELU 对所有神经元统一)形成鲜明对比。
2. neural-synchronization
直接将神经元群体活动的时序相关性(激活历史的内积)作为潜在表示,用于注意力查询(qt)和输出预测(yt)。这与传统网络在单个时间点的"快照"表示根本不同。
架构
Input → FeatureExtractor → Cross-Attention ← qt (from sync)
↓ ot
Synapse Model → at (pre-activations) → NLMs → zt+1 (post-activations)
↑ ↓
└────────── concat(zt, ot) ←────────────────────┘
→ Sync Matrix St
关键组件
| 组件 | 作用 |
|---|---|
| [[internal-ticks | Internal Ticks]] |
| [[synapse-model | Synapse Model]] |
| [[neuron-level-models | NLMs]] |
| [[neural-synchronization | Sync Matrix]] |
| [[neuron-pairing | Neuron Pairing]] |
| [[temporal-decay-neural | Temporal Decay r_ij]] |
certainty-based-loss
不固定使用某个内部 tick 的输出,而是动态选择:
- t₁ = argmin(L) — 损失最小的 tick
- t₂ = argmax(C) — 确定性最高的 tick
L = (L_t₁ + L_t₂) / 2,实现原生自适应计算(无需单独 halting 模块)。
实验亮点
🧩 2D Mazes(39×39 → 99×99)
- 无位置编码,需构建 internal-world-model
- 显著优于 LSTM/FF 基线
- 涌现泛化:训练于 100 步路径,可泛化到更远路径和更大的 99×99 迷宫
🖼️ ImageNet-1K 分类
- 原生 adaptive-computation-time:简单样本可在 <10 ticks 停止
- 自然校准(calibration):无需专门技术即达到优秀校准
- 涌现"环顾四周"(look around) 行为:模型在没有训练信号的情况下学习顺序扫描图像
🧮 Parity 计算
- 学习可解释的算法策略(如周期性重置、前瞻性预测)
- CTM 在 64 位序列上显著优于 LSTM
关键洞察
- 从"统一激活函数"到"私有神经元模型":这不仅是架构创新,更是对神经元抽象层次的重新思考
- 同步作为表示:将时序相关性直接用作表示,开辟了高基数表示空间,天然适合捕获"思考"的时序特征
- 不要位置编码:CTM 完全通过内部动态建立空间理解,暗示时间可能是比空间更基础的表示维度
- 涌现属性丰富:适应性计算、校准、环顾四周、行波——均无专门设计,从同一核心架构自然涌现
相关概念
- adaptive-computation-time 的传统方案需要显式 halting 模块,CTM 通过 loss 设计自然实现
- internal-world-model:Ha & Schmidhuber (2018) 的经典概念
- 与 spiking-neural-networks 的关系:共享生物学灵感但路径不同——CTM 使用连续值 + 梯度优化,SNN 使用离散脉冲 + 事件驱动