20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/multi-hot-cross-entropy.md
+++ b/concepts/multi-hot-cross-entropy.md
@@ -0,0 +1,42 @@
+---
+title: "Multi-hot Cross-Entropy (MCE)"
+created: 2026-05-29
+updated: 2026-05-29
+type: concept
+tags: ["loss-function", "training", "LLM"]
+sources: ["https://arxiv.org/abs/2605.06546"]
+---
+
+# Multi-hot Cross-Entropy (MCE)
+
+**Multi-hot Cross-Entropy (MCE)** 是标准交叉熵损失的多标签推广，用于 [[token-superposition-training|TST]] 中同时预测一个 bag 内的多个 token。由 Peng, Gigant & Quesnelle (2026) 在 TST 论文中提出。
+
+## 定义
+
+标准 CE（单标签 y）：
+$$L_{CE}(z, y) = -z_y + \log \sum_i \exp(z_i)$$
+
+MCE（多标签 bag y，size = s）：
+$$L_{MCE}(z, y) = \frac{1}{|y|} \sum_{y \in y} L_{CE}(z, y)$$
+
+化简后即对 bag 中每个 token 的 CE loss 取平均。
+
+## 设计考量
+
+- **简洁性**：可复用高度优化的 CE kernel，无需修改训练框架
+- **对比其他 loss**：尝试了 Hinge loss 和 Binary Cross-Entropy (BCE)，均显著差于 MCE，甚至不如 baseline
+- **信息论解释**：MCE 等价于让模型输出 bag 内所有 token 的**均匀混合概率**，叠加阶段结束后该分布不可直接用于 sampling
+
+## 与 Multi-Token Prediction (MTP) 的区别
+
+| 特性 | MCE (TST) | MTP |
+|------|-----------|-----|
+| 预测目标 | 下一个 bag 的全部 token | 逐个预测 k 个未来 token |
+| 额外参数 | 无 | k 个独立预测头 |
+| 超参数 | s (bag size) | k (预测步数) |
+| 因果性 | 半因果（bag 内无序） | 完全因果 |
+
+## 相关
+
+- [[token-superposition-training]] — 使用 MCE 的方法
+- [[peng-tst-2026]] — 原始论文