Files
myWiki/reviews/peng-tst-2026-review.md
2026-06-01 10:46:01 +08:00

53 lines
2.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Review: Token Superposition Training"
created: 2026-05-29
type: review
paper: "peng-tst-2026"
arxiv: "2605.06546"
---
# 📌 Review: Token Superposition Training
**论文**: Efficient Pre-Training with Token Superposition
**作者**: Bowen Peng, Théo Gigant, Jeffrey Quesnelle (Nous Research)
**arXiv**: 2605.06546 | **领域**: cs.CL | **评审时间**: 2026-05-29
---
## 🎯 核心概念
1. **[[token-superposition-training|Token Superposition Training (TST)]]** — 两阶段预训练方法:叠加阶段用 s-token 提高吞吐量,恢复阶段回归标准训练。不修改模型架构,纯 drop-in
2. **[[multi-hot-cross-entropy|Multi-hot Cross-Entropy (MCE)]]** — 预测下一个 bag 全部 token 的损失函数,是标准 CE 的多标签推广
3. **[[input-superposition|Input Superposition]]** — 将连续 s 个 token embedding 取平均形成 s-token序列长度缩短 s×
4. **[[representation-alignment|Representation Alignment]]** — 两阶段间必须共享 embedding 和 LM head重新初始化会完全消除增益
5. **[[coarse-to-fine-granularity|Coarse-to-Fine Granularity]]** — 跨模态设计原则:先用粗粒度高吞吐量表示训练,后切换到细粒度
6. **[[throughput-hypothesis|Throughput Hypothesis]]** — coarser token → 更高训练数据吞吐 → 更好性能
7. **[[two-phase-pretraining|Two-Phase Pre-Training]]** — 先用替代目标预训练再回归标准的通用范式
8. **[[s-token|S-Token]]** — 叠加后形成的 latent representation
---
## 🔗 概念网络
**核心连接**: `token-superposition-training``input-superposition``multi-hot-cross-entropy``two-phase-pretraining`
**设计原则层**: `coarse-to-fine-granularity``throughput-hypothesis``representation-alignment`
**扩展连接**: 与 wiki 内已有概念(如 multi-token-prediction、subword-tokenization、mixture-of-experts构成预训练效率优化的概念集群
---
## 📚 Wiki 集成
- **新增页面**: 10 个1 论文 + 1 raw 存档 + 8 概念)
- **链接完整性**: 100% 无断链 ✅
- **总规模**: 447 → 456 页
---
## 💡 关键洞察
**1. "不修改"的力量**TST 最令人印象深刻之处在于它是一个纯 drop-in 方案——不改架构、不改 tokenizer、不改优化器。这与 MoE、稀疏注意力等方法形成鲜明对比。这背后隐含了一个重要原则**训练时的表示粒度和推理时的架构可以解耦**。
**2. 表示对齐的隐藏重要性**:通过对照实验(随机重新初始化 embedding → 所有增益消失),论文揭示了一个在多阶段训练中容易被忽视的条件——阶段间的表示连续性。这不仅是 TST 工程上的成功关键,更是对任何多阶段训练范式的一般性启示。