SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Two-Phase Pre-Training

2026-05-29

2026-05-29

concept

pre-training

training-schedule

LLM

https://arxiv.org/abs/2605.06546

Two-Phase Pre-Training

Two-Phase Pre-Training 是一种 LLM 预训练范式：先用某种高效但粗糙的方式训练，再切换到标准训练。token-superposition-training 是该范式的一个典型实例。

一般形式

阶段一（先导阶段）：用替代目标或简化表示训练，使模型获得"预-预训练"基础
阶段二（恢复/精调阶段）：切换回标准 autoregressive training

在 LLM 预训练中的先例

方法	阶段一	阶段二
TST (Peng et al. 2026)	Token 叠加 + MCE loss	标准 CE
Patch-Level (Shao et al. 2025)	Patch 平均 + CE	标准 token-level
Bolmo (Minixhofer et al.)	Byte-level 预训练	Subword 恢复
Hu et al.	小模型预训练	大模型继承

TST 的独特性

TST 与其他两阶段方法的关键区别：

不引入新的投影层或 adapter — embedding 和 LM head 在阶段间共享
阶段二的"恢复"只是移除叠加代码，模型结构完全不变
这使 TST 成为纯 drop-in 方案

关键洞察

两阶段训练的成功依赖于 表示对齐（representation-alignment）——如果在阶段之间重新初始化 key layers（如 embedding 和 LM head），所有增益消失。

相关

token-superposition-training — TST 的具体实现
representation-alignment — 跨阶段表示对齐
coarse-to-fine-granularity — 底层设计原则