20260601
This commit is contained in:
43
concepts/two-phase-pretraining.md
Normal file
43
concepts/two-phase-pretraining.md
Normal file
@@ -0,0 +1,43 @@
|
||||
---
|
||||
title: "Two-Phase Pre-Training"
|
||||
created: 2026-05-29
|
||||
updated: 2026-05-29
|
||||
type: concept
|
||||
tags: ["pre-training", "training-schedule", "LLM"]
|
||||
sources: ["https://arxiv.org/abs/2605.06546"]
|
||||
---
|
||||
|
||||
# Two-Phase Pre-Training
|
||||
|
||||
**Two-Phase Pre-Training** 是一种 LLM 预训练范式:先用某种高效但粗糙的方式训练,再切换到标准训练。[[token-superposition-training|TST]] 是该范式的一个典型实例。
|
||||
|
||||
## 一般形式
|
||||
|
||||
1. **阶段一(先导阶段)**:用替代目标或简化表示训练,使模型获得"预-预训练"基础
|
||||
2. **阶段二(恢复/精调阶段)**:切换回标准 autoregressive training
|
||||
|
||||
## 在 LLM 预训练中的先例
|
||||
|
||||
| 方法 | 阶段一 | 阶段二 |
|
||||
|------|--------|--------|
|
||||
| TST (Peng et al. 2026) | Token 叠加 + MCE loss | 标准 CE |
|
||||
| Patch-Level (Shao et al. 2025) | Patch 平均 + CE | 标准 token-level |
|
||||
| Bolmo (Minixhofer et al.) | Byte-level 预训练 | Subword 恢复 |
|
||||
| Hu et al. | 小模型预训练 | 大模型继承 |
|
||||
|
||||
## TST 的独特性
|
||||
|
||||
TST 与其他两阶段方法的关键区别:
|
||||
- **不引入新的投影层或 adapter** — embedding 和 LM head 在阶段间共享
|
||||
- 阶段二的"恢复"只是移除叠加代码,模型结构**完全不变**
|
||||
- 这使 TST 成为纯 drop-in 方案
|
||||
|
||||
## 关键洞察
|
||||
|
||||
两阶段训练的成功依赖于 **表示对齐**([[representation-alignment]])——如果在阶段之间重新初始化 key layers(如 embedding 和 LM head),所有增益消失。
|
||||
|
||||
## 相关
|
||||
|
||||
- [[token-superposition-training]] — TST 的具体实现
|
||||
- [[representation-alignment]] — 跨阶段表示对齐
|
||||
- [[coarse-to-fine-granularity]] — 底层设计原则
|
||||
Reference in New Issue
Block a user