myWiki/concepts/token-superposition-training.md

---
title: "Token Superposition Training (TST)"
created: 2026-05-29
updated: 2026-05-29
type: concept
tags: ["pre-training", "efficiency", "LLM"]
sources: ["https://arxiv.org/abs/2605.06546"]
---

# Token Superposition Training (TST)

**Token Superposition Training** 是一种两阶段的 LLM 预训练加速方法，由 Peng, Gigant & Quesnelle (Nous Research, 2026) 提出。核心思想：在训练初期用**粗粒度 token 叠加**提高数据吞吐量，后期回归标准训练。

## 机制

TST 不修改模型架构、tokenizer、优化器或并行策略——它是一个纯 drop-in 方法：

### 阶段一：叠加阶段
- 将连续 s 个 token 的 embedding **取平均**形成一个 [[s-token]]
- 用 [[multi-hot-cross-entropy|MCE]] 损失预测下一个 bag 的全部 token
- 效果：序列长度缩短 s 倍 → 等 FLOPs 下吞入 s× 更多数据

### 阶段二：恢复阶段
- 回归标准 causal next-token prediction
- embedding 和 LM head **不重新初始化**

## 关键参数

| 参数 | 含义 | 推荐范围 |
|------|------|----------|
| s (bag size) | 每个 bag 的 token 数 | 4–8 |
| r (step ratio) | 叠加步数占总步数的比例 | 0.2–0.4 |

## 性能

- 10B A1B MoE：等 loss 条件下 **2.5× 训练时间缩减**
- 3B Dense：等 FLOPs 下最终 loss 更低，下游任务持平或更好

## 为什么有效

1. **粗→细粒度调度**（[[coarse-to-fine-granularity]]）：先学粗统计结构，后精调
2. **表示对齐**（[[representation-alignment]]）：共享 embedding 跨越两阶段是关键
3. **吞吐量假说**（[[throughput-hypothesis]]）：coarser tokens → 更高数据吞吐量 → 更好性能

## 相关

- [[peng-tst-2026]] — 原始论文
- [[multi-hot-cross-entropy]] — 核心损失函数
- [[two-phase-pretraining]] — 两阶段训练范式