1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Adaptive Computation Time (ACT) | 2026-05-15 | 2026-05-15 | concept |
|
|
Adaptive Computation Time (ACT)
Adaptive Computation Time 是一类技术,允许神经网络根据输入难度动态调整计算量。
经典方案
ACT (Graves, 2016)
- 引入可学习的 halting 单元
- 在每个循环步骤输出 halting 概率
- 当累积 halting 概率超过 1−ε 时停止
- 需要 "ponder cost" 正则化项鼓励效率
PonderNet (Banino et al., 2021)
- 将 halting 概率建模为几何分布
- 训练时从分布采样步数
- 推理时使用期望步数
其他变体
- Early-Exit Networks:中间层添加分类器,满足条件则提前退出
- AdaTape:动态扩展输入序列
- Sparse Universal Transformer:循环权重共享 + 动态 halting + MoE
CTM 的原生 ACT
CTM 通过 certainty-based-loss 自然实现 ACT,无需显式 halting 模块:
- 确定性可以作为停止条件
- 简单样本在早期 tick 即达到高确定性
- ImageNet 实验中,大多数样本在 <10 ticks 即可停止(总共 50 ticks)
关键区别
CTM 的 ACT 是涌现属性而非显式设计——没有 halting 模块、没有 ponder cost、没有步数采样。这是其架构哲学的核心体现:通过设计损失函数和表示,让"智能"行为自然涌现。
来源
- Graves, "Adaptive Computation Time for Recurrent Neural Networks", 2016
- darlow-ctm-2025 (NeurIPS 2025)