Files
myWiki/concepts/token-superposition-training.md
2026-06-01 10:46:01 +08:00

50 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Token Superposition Training (TST)"
created: 2026-05-29
updated: 2026-05-29
type: concept
tags: ["pre-training", "efficiency", "LLM"]
sources: ["https://arxiv.org/abs/2605.06546"]
---
# Token Superposition Training (TST)
**Token Superposition Training** 是一种两阶段的 LLM 预训练加速方法,由 Peng, Gigant & Quesnelle (Nous Research, 2026) 提出。核心思想:在训练初期用**粗粒度 token 叠加**提高数据吞吐量,后期回归标准训练。
## 机制
TST 不修改模型架构、tokenizer、优化器或并行策略——它是一个纯 drop-in 方法:
### 阶段一:叠加阶段
- 将连续 s 个 token 的 embedding **取平均**形成一个 [[s-token]]
- 用 [[multi-hot-cross-entropy|MCE]] 损失预测下一个 bag 的全部 token
- 效果:序列长度缩短 s 倍 → 等 FLOPs 下吞入 s× 更多数据
### 阶段二:恢复阶段
- 回归标准 causal next-token prediction
- embedding 和 LM head **不重新初始化**
## 关键参数
| 参数 | 含义 | 推荐范围 |
|------|------|----------|
| s (bag size) | 每个 bag 的 token 数 | 48 |
| r (step ratio) | 叠加步数占总步数的比例 | 0.20.4 |
## 性能
- 10B A1B MoE等 loss 条件下 **2.5× 训练时间缩减**
- 3B Dense等 FLOPs 下最终 loss 更低,下游任务持平或更好
## 为什么有效
1. **粗→细粒度调度**[[coarse-to-fine-granularity]]):先学粗统计结构,后精调
2. **表示对齐**[[representation-alignment]]):共享 embedding 跨越两阶段是关键
3. **吞吐量假说**[[throughput-hypothesis]]coarser tokens → 更高数据吞吐量 → 更好性能
## 相关
- [[peng-tst-2026]] — 原始论文
- [[multi-hot-cross-entropy]] — 核心损失函数
- [[two-phase-pretraining]] — 两阶段训练范式