Files
myWiki/papers/peng-tst-2026.md
2026-06-01 10:46:01 +08:00

54 lines
2.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Token Superposition Training: 高效 LLM 预训练的 Token 叠加方法"
created: 2026-05-29
updated: 2026-05-29
type: paper
arxiv: "2605.06546"
authors: ["Bowen Peng", "Théo Gigant", "Jeffrey Quesnelle"]
venue: "arXiv cs.CL, May 2026"
tags: ["pre-training", "efficiency", "token-superposition", "LLM"]
sources: ["https://arxiv.org/abs/2605.06546"]
---
# Token Superposition Training (TST): 高效 LLM 预训练
> **论文**: Peng, Gigant & Quesnelle (Nous Research, 2026) — arXiv:2605.06546
## 核心问题
LLM 预训练在大规模下计算成本极高现有优化方法MoE、稀疏注意力、压缩建模通常需要**侵入式修改**模型架构。**能否在不改动模型架构的前提下,仅通过提高训练时 token 吞吐量来提升预训练效率?**
## 方法Token Superposition Training (TST)
TST 是一个简单的 **drop-in** 方法,分两阶段:
### 阶段一叠加阶段Superposition Phase
- **输入叠加**:将连续 s 个 token 的 embedding 取平均,形成单个 "s-token"
- **输出叠加**:预测下一个 bag 的全部 s 个 token使用 [[multi-hot-cross-entropy|MCE]] 损失
- 效果:等 FLOPs 下吞入 s× 更多数据 token
### 阶段二恢复阶段Recovery Phase
- 完全回归标准 next-token prediction 训练
- 不做任何 adapter 或投影层——embedding 和 LM head **保持不变**
## 关键发现
1. **2.5× 加速**:在 10B A1B MoE 模型上,等 loss 条件下预训练时间减少 2.5 倍
2. **表示对齐至关重要**:叠加和恢复阶段**共享** embedding 和 LM head——若在两阶段之间重新初始化所有增益消失
3. **超参数鲁棒**bag size s ∈ [4, 8],叠加比例 r ∈ [0.2, 0.4] 内均有效
4. **输入+输出叠加均有贡献**,但输入叠加的增益机制仍有待解释
## 核心洞察
TST 的本质是 **粗→细粒度调度**[[coarse-to-fine-granularity]]):先用低分辨率、高吞吐量的数据分布进行"预-预训练",再切换到标准分辨率。这与 ViT 中的 patch size scheduling 和 byte-level → subword 转移共享同一设计哲学。
## 概念网络
- [[token-superposition-training]] — 方法总览
- [[multi-hot-cross-entropy]] — 核心损失函数
- [[input-superposition]] — 输入侧的 token 叠加
- [[two-phase-pretraining]] — 两阶段训练范式
- [[representation-alignment]] — 跨阶段表示对齐
- [[coarse-to-fine-granularity]] — 底层设计原则
- [[throughput-hypothesis]] — 吞吐量假说