20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/two-phase-pretraining.md
+++ b/concepts/two-phase-pretraining.md
@@ -0,0 +1,43 @@
+---
+title: "Two-Phase Pre-Training"
+created: 2026-05-29
+updated: 2026-05-29
+type: concept
+tags: ["pre-training", "training-schedule", "LLM"]
+sources: ["https://arxiv.org/abs/2605.06546"]
+---
+
+# Two-Phase Pre-Training
+
+**Two-Phase Pre-Training** 是一种 LLM 预训练范式：先用某种高效但粗糙的方式训练，再切换到标准训练。[[token-superposition-training|TST]] 是该范式的一个典型实例。
+
+## 一般形式
+
+1. **阶段一（先导阶段）**：用替代目标或简化表示训练，使模型获得"预-预训练"基础
+2. **阶段二（恢复/精调阶段）**：切换回标准 autoregressive training
+
+## 在 LLM 预训练中的先例
+
+| 方法 | 阶段一 | 阶段二 |
+|------|--------|--------|
+| TST (Peng et al. 2026) | Token 叠加 + MCE loss | 标准 CE |
+| Patch-Level (Shao et al. 2025) | Patch 平均 + CE | 标准 token-level |
+| Bolmo (Minixhofer et al.) | Byte-level 预训练 | Subword 恢复 |
+| Hu et al. | 小模型预训练 | 大模型继承 |
+
+## TST 的独特性
+
+TST 与其他两阶段方法的关键区别：
+- **不引入新的投影层或 adapter** — embedding 和 LM head 在阶段间共享
+- 阶段二的"恢复"只是移除叠加代码，模型结构**完全不变**
+- 这使 TST 成为纯 drop-in 方案
+
+## 关键洞察
+
+两阶段训练的成功依赖于 **表示对齐**（[[representation-alignment]]）——如果在阶段之间重新初始化 key layers（如 embedding 和 LM head），所有增益消失。
+
+## 相关
+
+- [[token-superposition-training]] — TST 的具体实现
+- [[representation-alignment]] — 跨阶段表示对齐
+- [[coarse-to-fine-granularity]] — 底层设计原则