SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Stage-Matched Data Configuration (分阶段数据配置)

2026-05-29

2026-05-29

concept

training-strategy

data-engineering

pretraining

curriculum

https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw

Stage-Matched Data Configuration (分阶段数据配置)

Stage-Matched Data Configuration 是 data-hierarchical-governance 的部署策略：在训练链的不同位置精确匹配不同层级的数据，最大化单位 Token 的边际效益。

配置策略

训练阶段	数据层级	目标	数据特征
预训练前期	L1/L2	建立基础语感和常识	大规模、多样化
预训练中后期	L2	提升信息密度	精筛、领域明确
退火(Annealing)	L3	注入推理结构和深层知识	合成Q&A、高密度
SFT	L3	对齐指令与思维链	深思考+非思考
RL	L3	偏好优化	对比反馈

MiniCPM5-1B 的实践

MiniCPM5-1B 的完整训练配方：

L1/L2 基础语感 → L3 退火推理注入 → L3 SFT 指令对齐

结果：1B 参数登顶 Artificial Analysis (17.9分)，超越更大模型。

核心原则

不是所有训练阶段都需要最高质量的数据——关键是在正确的时间喂正确的数据。

前期用轻量级规则控制成本，后期在关键节点投入昂贵的合成和标注。

相关

data-hierarchical-governance — 数据分级框架
ultradata — 实践系统
data-quality-over-scale — 此策略的宏观意义