Files
myWiki/concepts/two-phase-pretraining.md
2026-06-01 10:46:01 +08:00

44 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Two-Phase Pre-Training"
created: 2026-05-29
updated: 2026-05-29
type: concept
tags: ["pre-training", "training-schedule", "LLM"]
sources: ["https://arxiv.org/abs/2605.06546"]
---
# Two-Phase Pre-Training
**Two-Phase Pre-Training** 是一种 LLM 预训练范式:先用某种高效但粗糙的方式训练,再切换到标准训练。[[token-superposition-training|TST]] 是该范式的一个典型实例。
## 一般形式
1. **阶段一(先导阶段)**:用替代目标或简化表示训练,使模型获得"预-预训练"基础
2. **阶段二(恢复/精调阶段)**:切换回标准 autoregressive training
## 在 LLM 预训练中的先例
| 方法 | 阶段一 | 阶段二 |
|------|--------|--------|
| TST (Peng et al. 2026) | Token 叠加 + MCE loss | 标准 CE |
| Patch-Level (Shao et al. 2025) | Patch 平均 + CE | 标准 token-level |
| Bolmo (Minixhofer et al.) | Byte-level 预训练 | Subword 恢复 |
| Hu et al. | 小模型预训练 | 大模型继承 |
## TST 的独特性
TST 与其他两阶段方法的关键区别:
- **不引入新的投影层或 adapter** — embedding 和 LM head 在阶段间共享
- 阶段二的"恢复"只是移除叠加代码,模型结构**完全不变**
- 这使 TST 成为纯 drop-in 方案
## 关键洞察
两阶段训练的成功依赖于 **表示对齐**[[representation-alignment]])——如果在阶段之间重新初始化 key layers如 embedding 和 LM head所有增益消失。
## 相关
- [[token-superposition-training]] — TST 的具体实现
- [[representation-alignment]] — 跨阶段表示对齐
- [[coarse-to-fine-granularity]] — 底层设计原则