Files
myWiki/concepts/stage-matched-data-config.md
2026-06-01 10:46:01 +08:00

1.6 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Stage-Matched Data Configuration (分阶段数据配置) 2026-05-29 2026-05-29 concept
training-strategy
data-engineering
pretraining
curriculum
https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw

Stage-Matched Data Configuration (分阶段数据配置)

Stage-Matched Data Configurationdata-hierarchical-governance 的部署策略:在训练链的不同位置精确匹配不同层级的数据,最大化单位 Token 的边际效益。

配置策略

训练阶段 数据层级 目标 数据特征
预训练前期 L1/L2 建立基础语感和常识 大规模、多样化
预训练中后期 L2 提升信息密度 精筛、领域明确
退火(Annealing) L3 注入推理结构和深层知识 合成Q&A、高密度
SFT L3 对齐指令与思维链 深思考+非思考
RL L3 偏好优化 对比反馈

MiniCPM5-1B 的实践

MiniCPM5-1B 的完整训练配方:

L1/L2 基础语感 → L3 退火推理注入 → L3 SFT 指令对齐

结果1B 参数登顶 Artificial Analysis (17.9分),超越更大模型。

核心原则

不是所有训练阶段都需要最高质量的数据——关键是在正确的时间喂正确的数据

前期用轻量级规则控制成本,后期在关键节点投入昂贵的合成和标注。

相关