Multi-hot Cross-Entropy (MCE)

Multi-hot Cross-Entropy (MCE) 是标准交叉熵损失的多标签推广，用于 token-superposition-training 中同时预测一个 bag 内的多个 token。由 Peng, Gigant & Quesnelle (2026) 在 TST 论文中提出。

定义

标准 CE（单标签 y）：

L_{CE}(z, y) = -z_y + \log \sum_i \exp(z_i)

MCE（多标签 bag y，size = s）：

L_{MCE}(z, y) = \frac{1}{|y|} \sum_{y \in y} L_{CE}(z, y)

化简后即对 bag 中每个 token 的 CE loss 取平均。

设计考量

简洁性：可复用高度优化的 CE kernel，无需修改训练框架
对比其他 loss：尝试了 Hinge loss 和 Binary Cross-Entropy (BCE)，均显著差于 MCE，甚至不如 baseline
信息论解释：MCE 等价于让模型输出 bag 内所有 token 的均匀混合概率，叠加阶段结束后该分布不可直接用于 sampling

与 Multi-Token Prediction (MTP) 的区别

特性	MCE (TST)	MTP
预测目标	下一个 bag 的全部 token	逐个预测 k 个未来 token
额外参数	无	k 个独立预测头
超参数	s (bag size)	k (预测步数)
因果性	半因果（bag 内无序）	完全因果

1.5 KiB Raw Blame History Unescape Escape

Multi-hot Cross-Entropy (MCE)

定义

设计考量

与 Multi-Token Prediction (MTP) 的区别

相关

1.5 KiB

Raw Blame History