title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| Token Superposition Training (TST) |
2026-05-29 |
2026-05-29 |
concept |
| pre-training |
| efficiency |
| LLM |
|
|
Token Superposition Training (TST)
Token Superposition Training 是一种两阶段的 LLM 预训练加速方法,由 Peng, Gigant & Quesnelle (Nous Research, 2026) 提出。核心思想:在训练初期用粗粒度 token 叠加提高数据吞吐量,后期回归标准训练。
机制
TST 不修改模型架构、tokenizer、优化器或并行策略——它是一个纯 drop-in 方法:
阶段一:叠加阶段
阶段二:恢复阶段
- 回归标准 causal next-token prediction
- embedding 和 LM head 不重新初始化
关键参数
| 参数 |
含义 |
推荐范围 |
| s (bag size) |
每个 bag 的 token 数 |
4–8 |
| r (step ratio) |
叠加步数占总步数的比例 |
0.2–0.4 |
性能
- 10B A1B MoE:等 loss 条件下 2.5× 训练时间缩减
- 3B Dense:等 FLOPs 下最终 loss 更低,下游任务持平或更好
为什么有效
- 粗→细粒度调度(coarse-to-fine-granularity):先学粗统计结构,后精调
- 表示对齐(representation-alignment):共享 embedding 跨越两阶段是关键
- 吞吐量假说(throughput-hypothesis):coarser tokens → 更高数据吞吐量 → 更好性能
相关