Files
myWiki/raw/articles/ultradata-l3-open-source-2026.md
2026-06-01 10:46:01 +08:00

29 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "UltraData面壁智能L3数据集开源与L0-L4数据分级治理体系"
created: 2026-05-29
type: article-raw
source: "微信公众号 (Datawhale)"
author: "面壁智能团队"
url: "https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"
tags: ["data-governance", "pretraining", "synthetic-data", "sft", "open-source", "minicpm"]
---
# UltraData面壁智能L3数据集开源与L0-L4数据分级治理体系
**作者**: 面壁智能团队
**来源**: Datawhale (微信公众号)
**URL**: https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw
**收录时间**: 2026-05-29
## 概述
2026年5月面壁智能联合清华大学、OpenBMB开源社区正式发布 UltraData 系列两大 L3 层级数据集Ultra-FineWeb-L3 与 UltraData-SFT-2605。基于 L0-L4 数据分级治理体系构建,在 MiniCPM5-1B 训练中完成全链路验证。
## 核心内容
1. **L0-L4 分级治理**: 从原始网页(L0)到RAG编排数据(L4)的五级体系,按训练阶段匹配数据层级
2. **Ultra-FineWeb-L3**: 全球最大中文预训练合成数据(600B Tokens),将"可读文本"转化为"好学数据"
3. **UltraData-SFT-2605**: 国内首次开源千万级SFT数据含"深思考/非思考"全覆盖
4. **MiniCPM5-1B**: 登顶Artificial Analysis排行榜(17.9分)INT4仅0.5GB
5. **全流程透明**: 公开Query筛选、Answer校验、评测去污等完整治理工具链