This commit is contained in:
2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions

46
concepts/ultradata.md Normal file
View File

@@ -0,0 +1,46 @@
---
title: "UltraData"
created: 2026-05-29
updated: 2026-05-29
type: concept
tags: ["data-system", "open-source", "pretraining", "sft", "minicpm"]
sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"]
---
# UltraData
**UltraData** 是面壁智能联合清华大学、OpenBMB 开源社区构建的大规模数据系统,基于 [[data-hierarchical-governance|L0-L4 分级治理体系]],覆盖预训练到 SFT 全阶段。
## 核心数据集
| 数据集 | 层级 | 规模 | 亮点 |
|--------|:---:|------|------|
| Ultra-FineWeb-L3 | L3 | 600B Tokens | 全球最大中文预训练合成数据 |
| UltraData-SFT-2605 | L3 | 千万级 | 含深思考/非思考全覆盖 |
| UltraData-Math | L3 | 100B Tokens | 数学专项,超越 Nemotron |
| UltraChat | L3 | — | 对话合成 |
| UltraFeedback | L3 | — | RLHF 反馈 |
## 验证MiniCPM5-1B
UltraData 的价值在 MiniCPM5-1B 上得到全链路验证:
- Artificial Analysis 排行榜 17.9 分(登顶)
- 超越 Qwen3.5-0.8B 和 LFM2.5-1.2B
- INT4 仅 ~0.5GB,端侧可运行
## 开源工具链
面壁智能同时开源了数据质量验证组件:
- 单一数据验证
- Epoch 搜索
- 评测去污
## 行业影响
UltraData 将数据治理从"黑箱秘方"变为"公共资产"——社区可以观察、复现和改进数据配方。
## 相关
- [[data-hierarchical-governance]] — 底层框架
- [[synthetic-data-qa-generation]] — L3合成方法
- [[deep-thinking-sft]] — SFT 数据特色