20260601
This commit is contained in:
46
concepts/ultradata.md
Normal file
46
concepts/ultradata.md
Normal file
@@ -0,0 +1,46 @@
|
||||
---
|
||||
title: "UltraData"
|
||||
created: 2026-05-29
|
||||
updated: 2026-05-29
|
||||
type: concept
|
||||
tags: ["data-system", "open-source", "pretraining", "sft", "minicpm"]
|
||||
sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"]
|
||||
---
|
||||
|
||||
# UltraData
|
||||
|
||||
**UltraData** 是面壁智能联合清华大学、OpenBMB 开源社区构建的大规模数据系统,基于 [[data-hierarchical-governance|L0-L4 分级治理体系]],覆盖预训练到 SFT 全阶段。
|
||||
|
||||
## 核心数据集
|
||||
|
||||
| 数据集 | 层级 | 规模 | 亮点 |
|
||||
|--------|:---:|------|------|
|
||||
| Ultra-FineWeb-L3 | L3 | 600B Tokens | 全球最大中文预训练合成数据 |
|
||||
| UltraData-SFT-2605 | L3 | 千万级 | 含深思考/非思考全覆盖 |
|
||||
| UltraData-Math | L3 | 100B Tokens | 数学专项,超越 Nemotron |
|
||||
| UltraChat | L3 | — | 对话合成 |
|
||||
| UltraFeedback | L3 | — | RLHF 反馈 |
|
||||
|
||||
## 验证:MiniCPM5-1B
|
||||
|
||||
UltraData 的价值在 MiniCPM5-1B 上得到全链路验证:
|
||||
- Artificial Analysis 排行榜 17.9 分(登顶)
|
||||
- 超越 Qwen3.5-0.8B 和 LFM2.5-1.2B
|
||||
- INT4 仅 ~0.5GB,端侧可运行
|
||||
|
||||
## 开源工具链
|
||||
|
||||
面壁智能同时开源了数据质量验证组件:
|
||||
- 单一数据验证
|
||||
- Epoch 搜索
|
||||
- 评测去污
|
||||
|
||||
## 行业影响
|
||||
|
||||
UltraData 将数据治理从"黑箱秘方"变为"公共资产"——社区可以观察、复现和改进数据配方。
|
||||
|
||||
## 相关
|
||||
|
||||
- [[data-hierarchical-governance]] — 底层框架
|
||||
- [[synthetic-data-qa-generation]] — L3合成方法
|
||||
- [[deep-thinking-sft]] — SFT 数据特色
|
||||
Reference in New Issue
Block a user