Files
myWiki/concepts/two-phase-pretraining.md
2026-06-01 10:46:01 +08:00

1.6 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Two-Phase Pre-Training 2026-05-29 2026-05-29 concept
pre-training
training-schedule
LLM
https://arxiv.org/abs/2605.06546

Two-Phase Pre-Training

Two-Phase Pre-Training 是一种 LLM 预训练范式:先用某种高效但粗糙的方式训练,再切换到标准训练。token-superposition-training 是该范式的一个典型实例。

一般形式

  1. 阶段一(先导阶段):用替代目标或简化表示训练,使模型获得"预-预训练"基础
  2. 阶段二(恢复/精调阶段):切换回标准 autoregressive training

在 LLM 预训练中的先例

方法 阶段一 阶段二
TST (Peng et al. 2026) Token 叠加 + MCE loss 标准 CE
Patch-Level (Shao et al. 2025) Patch 平均 + CE 标准 token-level
Bolmo (Minixhofer et al.) Byte-level 预训练 Subword 恢复
Hu et al. 小模型预训练 大模型继承

TST 的独特性

TST 与其他两阶段方法的关键区别:

  • 不引入新的投影层或 adapter — embedding 和 LM head 在阶段间共享
  • 阶段二的"恢复"只是移除叠加代码,模型结构完全不变
  • 这使 TST 成为纯 drop-in 方案

关键洞察

两阶段训练的成功依赖于 表示对齐representation-alignment)——如果在阶段之间重新初始化 key layers如 embedding 和 LM head所有增益消失。

相关