1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Two-Phase Pre-Training | 2026-05-29 | 2026-05-29 | concept |
|
|
Two-Phase Pre-Training
Two-Phase Pre-Training 是一种 LLM 预训练范式:先用某种高效但粗糙的方式训练,再切换到标准训练。token-superposition-training 是该范式的一个典型实例。
一般形式
- 阶段一(先导阶段):用替代目标或简化表示训练,使模型获得"预-预训练"基础
- 阶段二(恢复/精调阶段):切换回标准 autoregressive training
在 LLM 预训练中的先例
| 方法 | 阶段一 | 阶段二 |
|---|---|---|
| TST (Peng et al. 2026) | Token 叠加 + MCE loss | 标准 CE |
| Patch-Level (Shao et al. 2025) | Patch 平均 + CE | 标准 token-level |
| Bolmo (Minixhofer et al.) | Byte-level 预训练 | Subword 恢复 |
| Hu et al. | 小模型预训练 | 大模型继承 |
TST 的独特性
TST 与其他两阶段方法的关键区别:
- 不引入新的投影层或 adapter — embedding 和 LM head 在阶段间共享
- 阶段二的"恢复"只是移除叠加代码,模型结构完全不变
- 这使 TST 成为纯 drop-in 方案
关键洞察
两阶段训练的成功依赖于 表示对齐(representation-alignment)——如果在阶段之间重新初始化 key layers(如 embedding 和 LM head),所有增益消失。
相关
- token-superposition-training — TST 的具体实现
- representation-alignment — 跨阶段表示对齐
- coarse-to-fine-granularity — 底层设计原则