--- title: "UltraData:面壁智能L3数据集开源与L0-L4数据分级治理体系" created: 2026-05-29 type: article-raw source: "微信公众号 (Datawhale)" author: "面壁智能团队" url: "https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw" tags: ["data-governance", "pretraining", "synthetic-data", "sft", "open-source", "minicpm"] --- # UltraData:面壁智能L3数据集开源与L0-L4数据分级治理体系 **作者**: 面壁智能团队 **来源**: Datawhale (微信公众号) **URL**: https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw **收录时间**: 2026-05-29 ## 概述 2026年5月,面壁智能联合清华大学、OpenBMB开源社区正式发布 UltraData 系列两大 L3 层级数据集:Ultra-FineWeb-L3 与 UltraData-SFT-2605。基于 L0-L4 数据分级治理体系构建,在 MiniCPM5-1B 训练中完成全链路验证。 ## 核心内容 1. **L0-L4 分级治理**: 从原始网页(L0)到RAG编排数据(L4)的五级体系,按训练阶段匹配数据层级 2. **Ultra-FineWeb-L3**: 全球最大中文预训练合成数据(600B Tokens),将"可读文本"转化为"好学数据" 3. **UltraData-SFT-2605**: 国内首次开源千万级SFT数据,含"深思考/非思考"全覆盖 4. **MiniCPM5-1B**: 登顶Artificial Analysis排行榜(17.9分),INT4仅0.5GB 5. **全流程透明**: 公开Query筛选、Answer校验、评测去污等完整治理工具链