SidneyZhang/myWiki

Files

Sidney Zhang 2faf4bb002

20260518-morning:新增内容

2026-05-18 10:17:56 +08:00

1.6 KiB

Raw Permalink Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Certainty-Based Loss

2026-05-15

2026-05-15

concept

loss-function

adaptive-computation

training

raw/papers/darlow-ctm-2025.md

Certainty-Based Loss

Certainty-Based Loss 是 CTM 的训练损失函数，通过对多个内部 tick 的动态选择实现原生自适应计算。

定义

CTM 在每个 internal-ticks t 产生输出 y_t（如分类概率）。对每个前向传播，选择两个 tick：

t₁ = argmin_t(L_t) — 损失最小的 tick（"最佳"预测）
t₂ = argmax_t(C_t) — 确定性最高的 tick

其中 C_t = 1 − normalized_entropy(y_t)，衡量预测置信度。

最终损失：

L = (L_t₁ + L_t₂) / 2

为什么这个设计关键？

原生自适应计算

不要求模型在固定 tick 停止——损失函数不指定"正确"的 tick
模型可以自然地学习在达到足够确定性时停止
简单样本在早期 tick 达到高确定性 → 实际推理时可早停

校准对齐

同时优化损失最小化和确定性最大化
促使模型的置信度与准确性对齐（校准）
ImageNet 实验显示 CTM 具有天然优秀的校准性能

与 ACT 的对比

维度	ACT (Graves 2016)	CTM Certainty-Based Loss
Halting 机制	显式 halting 模块 + 额外损失项	损失函数设计自然实现
计算惩罚	需要 ponder cost 正则化	不需要
何时停止	学习 halting 概率	确定性阈值

来源

darlow-ctm-2025