20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/token-superposition-training.md
+++ b/concepts/token-superposition-training.md
@@ -0,0 +1,49 @@
+---
+title: "Token Superposition Training (TST)"
+created: 2026-05-29
+updated: 2026-05-29
+type: concept
+tags: ["pre-training", "efficiency", "LLM"]
+sources: ["https://arxiv.org/abs/2605.06546"]
+---
+
+# Token Superposition Training (TST)
+
+**Token Superposition Training** 是一种两阶段的 LLM 预训练加速方法，由 Peng, Gigant & Quesnelle (Nous Research, 2026) 提出。核心思想：在训练初期用**粗粒度 token 叠加**提高数据吞吐量，后期回归标准训练。
+
+## 机制
+
+TST 不修改模型架构、tokenizer、优化器或并行策略——它是一个纯 drop-in 方法：
+
+### 阶段一：叠加阶段
+- 将连续 s 个 token 的 embedding **取平均**形成一个 [[s-token]]
+- 用 [[multi-hot-cross-entropy|MCE]] 损失预测下一个 bag 的全部 token
+- 效果：序列长度缩短 s 倍 → 等 FLOPs 下吞入 s× 更多数据
+
+### 阶段二：恢复阶段  
+- 回归标准 causal next-token prediction
+- embedding 和 LM head **不重新初始化**
+
+## 关键参数
+
+| 参数 | 含义 | 推荐范围 |
+|------|------|----------|
+| s (bag size) | 每个 bag 的 token 数 | 4–8 |
+| r (step ratio) | 叠加步数占总步数的比例 | 0.2–0.4 |
+
+## 性能
+
+- 10B A1B MoE：等 loss 条件下 **2.5× 训练时间缩减**
+- 3B Dense：等 FLOPs 下最终 loss 更低，下游任务持平或更好
+
+## 为什么有效
+
+1. **粗→细粒度调度**（[[coarse-to-fine-granularity]]）：先学粗统计结构，后精调
+2. **表示对齐**（[[representation-alignment]]）：共享 embedding 跨越两阶段是关键
+3. **吞吐量假说**（[[throughput-hypothesis]]）：coarser tokens → 更高数据吞吐量 → 更好性能
+
+## 相关
+
+- [[peng-tst-2026]] — 原始论文
+- [[multi-hot-cross-entropy]] — 核心损失函数
+- [[two-phase-pretraining]] — 两阶段训练范式