Files
myWiki/concepts/multi-hot-cross-entropy.md
2026-06-01 10:46:01 +08:00

1.5 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Multi-hot Cross-Entropy (MCE) 2026-05-29 2026-05-29 concept
loss-function
training
LLM
https://arxiv.org/abs/2605.06546

Multi-hot Cross-Entropy (MCE)

Multi-hot Cross-Entropy (MCE) 是标准交叉熵损失的多标签推广,用于 token-superposition-training 中同时预测一个 bag 内的多个 token。由 Peng, Gigant & Quesnelle (2026) 在 TST 论文中提出。

定义

标准 CE单标签 y

L_{CE}(z, y) = -z_y + \log \sum_i \exp(z_i)

MCE多标签 bag ysize = s

L_{MCE}(z, y) = \frac{1}{|y|} \sum_{y \in y} L_{CE}(z, y)

化简后即对 bag 中每个 token 的 CE loss 取平均。

设计考量

  • 简洁性:可复用高度优化的 CE kernel无需修改训练框架
  • 对比其他 loss:尝试了 Hinge loss 和 Binary Cross-Entropy (BCE),均显著差于 MCE甚至不如 baseline
  • 信息论解释MCE 等价于让模型输出 bag 内所有 token 的均匀混合概率,叠加阶段结束后该分布不可直接用于 sampling

与 Multi-Token Prediction (MTP) 的区别

特性 MCE (TST) MTP
预测目标 下一个 bag 的全部 token 逐个预测 k 个未来 token
额外参数 k 个独立预测头
超参数 s (bag size) k (预测步数)
因果性 半因果bag 内无序) 完全因果

相关