Files
myWiki/papers/darlow-ctm-2025.md

89 lines
4.6 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Continuous Thought Machines (CTM)"
created: 2026-05-15
updated: 2026-05-15
type: paper
tags: [neural-architecture, temporal-dynamics, biological-plausibility, synchronization, recurrence]
sources: [raw/papers/darlow-ctm-2025.md]
---
# Continuous Thought Machines (CTM)
**Luke Darlow, Ciaran Regan, Sebastian Risi, Jeffrey Seely, Llion Jones** — Sakana AI, University of Tsukuba, IT University of Copenhagen
**arXiv:** [2505.05522v4](https://arxiv.org/abs/2505.05522) | cs.LG | **NeurIPS 2025**
> Llion Jones 是 "Attention Is All You Need" 的合著者之一。
## 核心问题
**生物大脑**依赖复杂的时态神经动力学处理信息,而**人工神经网络**有意抽象掉了单个神经元的时序复杂性以简化大规模训练。这种抽象虽然有效,但导致了灵活人类认知与当前 AI 能力之间的鸿沟。
CTM 的核心赌注:**将时间重新引入神经计算是推进 AI 的关键**。
## 两大创新
### 1. [[neuron-level-models|Neuron-Level Models (NLMs)]]
每个神经元拥有**私有的权重参数**(深度为 1 的 MLP处理其 M 步 [[pre-activation-history|前激活历史]] 以产生复杂的时态动力学。与传统激活函数ReLU/GELU 对所有神经元统一)形成鲜明对比。
### 2. [[neural-synchronization|Neural Synchronization as Representation]]
直接将神经元群体活动的时序相关性(激活历史的**内积**作为潜在表示用于注意力查询qt和输出预测yt。这与传统网络在单个时间点的"快照"表示根本不同。
## 架构
```
Input → FeatureExtractor → Cross-Attention ← qt (from sync)
↓ ot
Synapse Model → at (pre-activations) → NLMs → zt+1 (post-activations)
↑ ↓
└────────── concat(zt, ot) ←────────────────────┘
→ Sync Matrix St
```
### 关键组件
| 组件 | 作用 |
|------|------|
| [[internal-ticks|Internal Ticks]] | 与数据维度解耦的内部时序 t∈{1,...,T},实现迭代精炼 |
| [[synapse-model|Synapse Model]] | U-Net 风格 MLP神经元间信息共享的循环结构 |
| [[neuron-level-models|NLMs]] | 每个神经元的私有 MLP处理前激活历史 |
| [[neural-synchronization|Sync Matrix]] | 激活历史内积 S^t = Z^t·(Z^t)⊺ |
| [[neuron-pairing|Neuron Pairing]] | 对 O(D²) 同步矩阵的子采样策略,选出 Dout/Daction 对 |
| [[temporal-decay-neural|Temporal Decay r_ij]] | 每对神经元可学习的指数衰减,控制时间尺度 |
### [[certainty-based-loss|Certainty-Based Loss]]
不固定使用某个内部 tick 的输出,而是动态选择:
- **t₁ = argmin(L)** — 损失最小的 tick
- **t₂ = argmax(C)** — 确定性最高的 tick
L = (L_t₁ + L_t₂) / 2实现**原生自适应计算**(无需单独 halting 模块)。
## 实验亮点
### 🧩 2D Mazes39×39 → 99×99
- **无位置编码**,需构建 [[internal-world-model|内部世界模型]]
- 显著优于 LSTM/FF 基线
- **涌现泛化**:训练于 100 步路径,可泛化到更远路径和更大的 99×99 迷宫
### 🖼️ ImageNet-1K 分类
- 原生 [[adaptive-computation-time|自适应计算]]:简单样本可在 <10 ticks 停止
- **自然校准**calibration无需专门技术即达到优秀校准
- 涌现"环顾四周"(look around) 行为模型在没有训练信号的情况下学习顺序扫描图像
### 🧮 Parity 计算
- 学习**可解释的算法策略**如周期性重置前瞻性预测
- CTM 64 位序列上显著优于 LSTM
## 关键洞察
1. **从"统一激活函数"到"私有神经元模型"**这不仅是架构创新更是对神经元抽象层次的重新思考
2. **同步作为表示**将时序相关性直接用作表示开辟了高基数表示空间天然适合捕获"思考"的时序特征
3. **不要位置编码**CTM 完全通过内部动态建立空间理解暗示时间可能是比空间更基础的表示维度
4. **涌现属性丰富**适应性计算校准环顾四周行波——均无专门设计从同一核心架构自然涌现
## 相关概念
- [[adaptive-computation-time|Adaptive Computation Time (ACT)]] 的传统方案需要显式 halting 模块CTM 通过 loss 设计自然实现
- [[internal-world-model|Internal World Models]]Ha & Schmidhuber (2018) 的经典概念
- [[spiking-neural-networks|SNN]] 的关系共享生物学灵感但路径不同——CTM 使用连续值 + 梯度优化SNN 使用离散脉冲 + 事件驱动