1.4 KiB
1.4 KiB
title, created, type, source, author, url, tags
| title | created | type | source | author | url | tags | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| UltraData:面壁智能L3数据集开源与L0-L4数据分级治理体系 | 2026-05-29 | article-raw | 微信公众号 (Datawhale) | 面壁智能团队 | https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw |
|
UltraData:面壁智能L3数据集开源与L0-L4数据分级治理体系
作者: 面壁智能团队 来源: Datawhale (微信公众号) URL: https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw 收录时间: 2026-05-29
概述
2026年5月,面壁智能联合清华大学、OpenBMB开源社区正式发布 UltraData 系列两大 L3 层级数据集:Ultra-FineWeb-L3 与 UltraData-SFT-2605。基于 L0-L4 数据分级治理体系构建,在 MiniCPM5-1B 训练中完成全链路验证。
核心内容
- L0-L4 分级治理: 从原始网页(L0)到RAG编排数据(L4)的五级体系,按训练阶段匹配数据层级
- Ultra-FineWeb-L3: 全球最大中文预训练合成数据(600B Tokens),将"可读文本"转化为"好学数据"
- UltraData-SFT-2605: 国内首次开源千万级SFT数据,含"深思考/非思考"全覆盖
- MiniCPM5-1B: 登顶Artificial Analysis排行榜(17.9分),INT4仅0.5GB
- 全流程透明: 公开Query筛选、Answer校验、评测去污等完整治理工具链