20260601
This commit is contained in:
28
raw/articles/ultradata-l3-open-source-2026.md
Normal file
28
raw/articles/ultradata-l3-open-source-2026.md
Normal file
@@ -0,0 +1,28 @@
|
||||
---
|
||||
title: "UltraData:面壁智能L3数据集开源与L0-L4数据分级治理体系"
|
||||
created: 2026-05-29
|
||||
type: article-raw
|
||||
source: "微信公众号 (Datawhale)"
|
||||
author: "面壁智能团队"
|
||||
url: "https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"
|
||||
tags: ["data-governance", "pretraining", "synthetic-data", "sft", "open-source", "minicpm"]
|
||||
---
|
||||
|
||||
# UltraData:面壁智能L3数据集开源与L0-L4数据分级治理体系
|
||||
|
||||
**作者**: 面壁智能团队
|
||||
**来源**: Datawhale (微信公众号)
|
||||
**URL**: https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw
|
||||
**收录时间**: 2026-05-29
|
||||
|
||||
## 概述
|
||||
|
||||
2026年5月,面壁智能联合清华大学、OpenBMB开源社区正式发布 UltraData 系列两大 L3 层级数据集:Ultra-FineWeb-L3 与 UltraData-SFT-2605。基于 L0-L4 数据分级治理体系构建,在 MiniCPM5-1B 训练中完成全链路验证。
|
||||
|
||||
## 核心内容
|
||||
|
||||
1. **L0-L4 分级治理**: 从原始网页(L0)到RAG编排数据(L4)的五级体系,按训练阶段匹配数据层级
|
||||
2. **Ultra-FineWeb-L3**: 全球最大中文预训练合成数据(600B Tokens),将"可读文本"转化为"好学数据"
|
||||
3. **UltraData-SFT-2605**: 国内首次开源千万级SFT数据,含"深思考/非思考"全覆盖
|
||||
4. **MiniCPM5-1B**: 登顶Artificial Analysis排行榜(17.9分),INT4仅0.5GB
|
||||
5. **全流程透明**: 公开Query筛选、Answer校验、评测去污等完整治理工具链
|
||||
Reference in New Issue
Block a user