Files
myWiki/concepts/multi-hot-cross-entropy.md
2026-06-01 10:46:01 +08:00

43 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Multi-hot Cross-Entropy (MCE)"
created: 2026-05-29
updated: 2026-05-29
type: concept
tags: ["loss-function", "training", "LLM"]
sources: ["https://arxiv.org/abs/2605.06546"]
---
# Multi-hot Cross-Entropy (MCE)
**Multi-hot Cross-Entropy (MCE)** 是标准交叉熵损失的多标签推广,用于 [[token-superposition-training|TST]] 中同时预测一个 bag 内的多个 token。由 Peng, Gigant & Quesnelle (2026) 在 TST 论文中提出。
## 定义
标准 CE单标签 y
$$L_{CE}(z, y) = -z_y + \log \sum_i \exp(z_i)$$
MCE多标签 bag ysize = s
$$L_{MCE}(z, y) = \frac{1}{|y|} \sum_{y \in y} L_{CE}(z, y)$$
化简后即对 bag 中每个 token 的 CE loss 取平均。
## 设计考量
- **简洁性**:可复用高度优化的 CE kernel无需修改训练框架
- **对比其他 loss**:尝试了 Hinge loss 和 Binary Cross-Entropy (BCE),均显著差于 MCE甚至不如 baseline
- **信息论解释**MCE 等价于让模型输出 bag 内所有 token 的**均匀混合概率**,叠加阶段结束后该分布不可直接用于 sampling
## 与 Multi-Token Prediction (MTP) 的区别
| 特性 | MCE (TST) | MTP |
|------|-----------|-----|
| 预测目标 | 下一个 bag 的全部 token | 逐个预测 k 个未来 token |
| 额外参数 | 无 | k 个独立预测头 |
| 超参数 | s (bag size) | k (预测步数) |
| 因果性 | 半因果bag 内无序) | 完全因果 |
## 相关
- [[token-superposition-training]] — 使用 MCE 的方法
- [[peng-tst-2026]] — 原始论文