1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Certainty-Based Loss | 2026-05-15 | 2026-05-15 | concept |
|
|
Certainty-Based Loss
Certainty-Based Loss 是 CTM 的训练损失函数,通过对多个内部 tick 的动态选择实现原生自适应计算。
定义
CTM 在每个 internal-ticks t 产生输出 y_t(如分类概率)。对每个前向传播,选择两个 tick:
- t₁ = argmin_t(L_t) — 损失最小的 tick("最佳"预测)
- t₂ = argmax_t(C_t) — 确定性最高的 tick
其中 C_t = 1 − normalized_entropy(y_t),衡量预测置信度。
最终损失:
L = (L_t₁ + L_t₂) / 2
为什么这个设计关键?
原生自适应计算
- 不要求模型在固定 tick 停止——损失函数不指定"正确"的 tick
- 模型可以自然地学习在达到足够确定性时停止
- 简单样本在早期 tick 达到高确定性 → 实际推理时可早停
校准对齐
- 同时优化损失最小化和确定性最大化
- 促使模型的置信度与准确性对齐(校准)
- ImageNet 实验显示 CTM 具有天然优秀的校准性能
与 ACT 的对比
| 维度 | ACT (Graves 2016) | CTM Certainty-Based Loss |
|---|---|---|
| Halting 机制 | 显式 halting 模块 + 额外损失项 | 损失函数设计自然实现 |
| 计算惩罚 | 需要 ponder cost 正则化 | 不需要 |
| 何时停止 | 学习 halting 概率 | 确定性阈值 |