47 lines
1.4 KiB
Markdown
47 lines
1.4 KiB
Markdown
---
|
||
title: "UltraData"
|
||
created: 2026-05-29
|
||
updated: 2026-05-29
|
||
type: concept
|
||
tags: ["data-system", "open-source", "pretraining", "sft", "minicpm"]
|
||
sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"]
|
||
---
|
||
|
||
# UltraData
|
||
|
||
**UltraData** 是面壁智能联合清华大学、OpenBMB 开源社区构建的大规模数据系统,基于 [[data-hierarchical-governance|L0-L4 分级治理体系]],覆盖预训练到 SFT 全阶段。
|
||
|
||
## 核心数据集
|
||
|
||
| 数据集 | 层级 | 规模 | 亮点 |
|
||
|--------|:---:|------|------|
|
||
| Ultra-FineWeb-L3 | L3 | 600B Tokens | 全球最大中文预训练合成数据 |
|
||
| UltraData-SFT-2605 | L3 | 千万级 | 含深思考/非思考全覆盖 |
|
||
| UltraData-Math | L3 | 100B Tokens | 数学专项,超越 Nemotron |
|
||
| UltraChat | L3 | — | 对话合成 |
|
||
| UltraFeedback | L3 | — | RLHF 反馈 |
|
||
|
||
## 验证:MiniCPM5-1B
|
||
|
||
UltraData 的价值在 MiniCPM5-1B 上得到全链路验证:
|
||
- Artificial Analysis 排行榜 17.9 分(登顶)
|
||
- 超越 Qwen3.5-0.8B 和 LFM2.5-1.2B
|
||
- INT4 仅 ~0.5GB,端侧可运行
|
||
|
||
## 开源工具链
|
||
|
||
面壁智能同时开源了数据质量验证组件:
|
||
- 单一数据验证
|
||
- Epoch 搜索
|
||
- 评测去污
|
||
|
||
## 行业影响
|
||
|
||
UltraData 将数据治理从"黑箱秘方"变为"公共资产"——社区可以观察、复现和改进数据配方。
|
||
|
||
## 相关
|
||
|
||
- [[data-hierarchical-governance]] — 底层框架
|
||
- [[synthetic-data-qa-generation]] — L3合成方法
|
||
- [[deep-thinking-sft]] — SFT 数据特色
|