SidneyZhang/myWiki

Fork 0

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

2.7 KiB

Raw Blame History

title, created, type, paper, arxiv

title	created	type	paper	arxiv
Review: Token Superposition Training	2026-05-29	review	peng-tst-2026	2605.06546

📌 Review: Token Superposition Training

论文: Efficient Pre-Training with Token Superposition 作者: Bowen Peng, Théo Gigant, Jeffrey Quesnelle (Nous Research) arXiv: 2605.06546 | 领域: cs.CL | 评审时间: 2026-05-29

🎯 核心概念

token-superposition-training — 两阶段预训练方法：叠加阶段用 s-token 提高吞吐量，恢复阶段回归标准训练。不修改模型架构，纯 drop-in
multi-hot-cross-entropy — 预测下一个 bag 全部 token 的损失函数，是标准 CE 的多标签推广
input-superposition — 将连续 s 个 token embedding 取平均形成 s-token，序列长度缩短 s×
representation-alignment — 两阶段间必须共享 embedding 和 LM head，重新初始化会完全消除增益
coarse-to-fine-granularity — 跨模态设计原则：先用粗粒度高吞吐量表示训练，后切换到细粒度
throughput-hypothesis — coarser token → 更高训练数据吞吐 → 更好性能
two-phase-pretraining — 先用替代目标预训练再回归标准的通用范式
s-token — 叠加后形成的 latent representation

🔗 概念网络

核心连接: token-superposition-training ↔ input-superposition ↔ multi-hot-cross-entropy ↔ two-phase-pretraining

设计原则层: coarse-to-fine-granularity ↔ throughput-hypothesis ↔ representation-alignment

扩展连接: 与 wiki 内已有概念（如 multi-token-prediction、subword-tokenization、mixture-of-experts）构成预训练效率优化的概念集群

📚 Wiki 集成

新增页面: 10 个（1 论文 + 1 raw 存档 + 8 概念）
链接完整性: 100% 无断链 ✅
总规模: 447 → 456 页

💡 关键洞察

1. "不修改"的力量：TST 最令人印象深刻之处在于它是一个纯 drop-in 方案——不改架构、不改 tokenizer、不改优化器。这与 MoE、稀疏注意力等方法形成鲜明对比。这背后隐含了一个重要原则：训练时的表示粒度和推理时的架构可以解耦。

2. 表示对齐的隐藏重要性：通过对照实验（随机重新初始化 embedding → 所有增益消失），论文揭示了一个在多阶段训练中容易被忽视的条件——阶段间的表示连续性。这不仅是 TST 工程上的成功关键，更是对任何多阶段训练范式的一般性启示。

2.7 KiB Raw Blame History Unescape Escape