📌 基本信息

字段	内容
论文	Continuous Thought Machines (CTM)
作者	Luke Darlow, Ciaran Regan, Sebastian Risi, Jeffrey Seely, Llion Jones
机构	Sakana AI (Tokyo), University of Tsukuba, IT University of Copenhagen
arXiv	2505.05522v4
类别	cs.LG
会议	NeurIPS 2025
集成日期	2026-05-15

Llion Jones 是 "Attention Is All You Need" 的合著者之一。

🎯 核心概念

neuron-level-models — 颠覆「所有神经元共享同一激活函数」的范式，每个神经元拥有私有参数 MLP，从其激活历史中产生复杂时序动态
neural-synchronization — 将神经元群体活动历史的时序相关性（内积）直接用作潜在表示，取代传统的单步激活快照
internal-ticks — 与数据维度完全解耦的内部时序，CTM 沿自生成的「思考步骤」展开神经动力学
certainty-based-loss — 动态选择 argmin(loss) + argmax(certainty) 两个 tick，实现原生自适应计算（无需 halting 模块）
continuous-thought-machine — Synapse Model → NLMs → Synchronization → Cross-Attention 的循环管线

🔗 概念网络

核心连接

CTM
├── 创新 1: Neuron-Level Models
│   ├── Pre-Activation History (M-step rolling buffer)
│   └── 每个神经元私有 MLP g_{θ_d}
├── 创新 2: Neural Synchronization
│   ├── S^t = Z^t · (Z^t)^⊺ (inner product of histories)
│   ├── Neuron Pairing (subsampling for efficiency)
│   └── Temporal Decay r_ij (multi-scale)
├── Infrastructure
│   ├── Internal Ticks (decoupled timeline)
│   └── Synapse Model (U-Net MLP)
└── Training
    └── Certainty-Based Loss → 原生 Adaptive Computation Time

涌现属性

CTM 最迷人之处在于涌现——以下行为均无专门设计：

属性	表现
[[adaptive-computation-time	自适应计算]]
校准 (Calibration)	ImageNet 天然优秀校准
Look Around	分类前顺序扫描图像
[[internal-world-model	内部世界模型]]
行波 (Traveling Waves)	UMAP 可视化中的低频行波

扩展连接

连接 spiking-neural-networks（占位页面）：共同的生物学灵感，不同的实现路径
网络规模：320 → 334 页（+14：1 论文 + 11 概念 + 1 SNN 占位 + 1 Review）

📚 Wiki 集成

指标	数值
新增页面	14 个（1 论文 + 12 概念 + 1 Review）
Wiki 规模	320 → 334
链接完整性	✅ 100% 无断链

💡 关键洞察

「神经元即处理器」的激进赌注：CTM 将每个神经元从「简单非线性门」升级为「小型时序处理器」，这是对深度学习最底层计算原语的重新设计。如果这条路走通，可能触发一场「神经元架构」的创新浪潮——类似 Transformer 取代 RNN 时发生的那样。
同步 = 解耦 = 涌现：用同步矩阵而非 z_t 作为表示，看似增加了一层间接性，实则解放了神经元——它们不再被迫直接编码任务信息，而是可以自由产生丰富动态。这种「不要求神经元直接有用」的设计哲学，可能是涌现能力的关键。
Sakana AI 的方向信号：来自 Transformer 原作者的团队（Llion Jones）押注在「神经动力学」方向，这是一个强烈的信号——他们可能看到了 Attention 范式之外的 Next Big Thing。
与 StreamingLLM 的意外联系：CTM 的 pre-activation history（M-step buffer）与 StreamingLLM 的 attention-sinks + rolling KV cache 有结构相似性——都在用有限的历史窗口维持时序计算。这暗示「有限历史的时序表示」可能是多个子领域的汇聚点。

4.2 KiB Raw Blame History Unescape Escape

📌 基本信息

🎯 核心概念

🔗 概念网络

核心连接

涌现属性

扩展连接

📚 Wiki 集成

💡 关键洞察

4.2 KiB

Raw Blame History