This commit is contained in:
2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions

View File

@@ -0,0 +1,28 @@
---
title: "UltraData面壁智能L3数据集开源与L0-L4数据分级治理体系"
created: 2026-05-29
type: article-raw
source: "微信公众号 (Datawhale)"
author: "面壁智能团队"
url: "https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"
tags: ["data-governance", "pretraining", "synthetic-data", "sft", "open-source", "minicpm"]
---
# UltraData面壁智能L3数据集开源与L0-L4数据分级治理体系
**作者**: 面壁智能团队
**来源**: Datawhale (微信公众号)
**URL**: https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw
**收录时间**: 2026-05-29
## 概述
2026年5月面壁智能联合清华大学、OpenBMB开源社区正式发布 UltraData 系列两大 L3 层级数据集Ultra-FineWeb-L3 与 UltraData-SFT-2605。基于 L0-L4 数据分级治理体系构建,在 MiniCPM5-1B 训练中完成全链路验证。
## 核心内容
1. **L0-L4 分级治理**: 从原始网页(L0)到RAG编排数据(L4)的五级体系,按训练阶段匹配数据层级
2. **Ultra-FineWeb-L3**: 全球最大中文预训练合成数据(600B Tokens),将"可读文本"转化为"好学数据"
3. **UltraData-SFT-2605**: 国内首次开源千万级SFT数据含"深思考/非思考"全覆盖
4. **MiniCPM5-1B**: 登顶Artificial Analysis排行榜(17.9分)INT4仅0.5GB
5. **全流程透明**: 公开Query筛选、Answer校验、评测去污等完整治理工具链