43 lines
1.5 KiB
Markdown
43 lines
1.5 KiB
Markdown
---
|
||
title: "Multi-hot Cross-Entropy (MCE)"
|
||
created: 2026-05-29
|
||
updated: 2026-05-29
|
||
type: concept
|
||
tags: ["loss-function", "training", "LLM"]
|
||
sources: ["https://arxiv.org/abs/2605.06546"]
|
||
---
|
||
|
||
# Multi-hot Cross-Entropy (MCE)
|
||
|
||
**Multi-hot Cross-Entropy (MCE)** 是标准交叉熵损失的多标签推广,用于 [[token-superposition-training|TST]] 中同时预测一个 bag 内的多个 token。由 Peng, Gigant & Quesnelle (2026) 在 TST 论文中提出。
|
||
|
||
## 定义
|
||
|
||
标准 CE(单标签 y):
|
||
$$L_{CE}(z, y) = -z_y + \log \sum_i \exp(z_i)$$
|
||
|
||
MCE(多标签 bag y,size = s):
|
||
$$L_{MCE}(z, y) = \frac{1}{|y|} \sum_{y \in y} L_{CE}(z, y)$$
|
||
|
||
化简后即对 bag 中每个 token 的 CE loss 取平均。
|
||
|
||
## 设计考量
|
||
|
||
- **简洁性**:可复用高度优化的 CE kernel,无需修改训练框架
|
||
- **对比其他 loss**:尝试了 Hinge loss 和 Binary Cross-Entropy (BCE),均显著差于 MCE,甚至不如 baseline
|
||
- **信息论解释**:MCE 等价于让模型输出 bag 内所有 token 的**均匀混合概率**,叠加阶段结束后该分布不可直接用于 sampling
|
||
|
||
## 与 Multi-Token Prediction (MTP) 的区别
|
||
|
||
| 特性 | MCE (TST) | MTP |
|
||
|------|-----------|-----|
|
||
| 预测目标 | 下一个 bag 的全部 token | 逐个预测 k 个未来 token |
|
||
| 额外参数 | 无 | k 个独立预测头 |
|
||
| 超参数 | s (bag size) | k (预测步数) |
|
||
| 因果性 | 半因果(bag 内无序) | 完全因果 |
|
||
|
||
## 相关
|
||
|
||
- [[token-superposition-training]] — 使用 MCE 的方法
|
||
- [[peng-tst-2026]] — 原始论文
|