Files
myWiki/concepts/ultradata.md
2026-06-01 10:46:01 +08:00

47 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "UltraData"
created: 2026-05-29
updated: 2026-05-29
type: concept
tags: ["data-system", "open-source", "pretraining", "sft", "minicpm"]
sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"]
---
# UltraData
**UltraData** 是面壁智能联合清华大学、OpenBMB 开源社区构建的大规模数据系统,基于 [[data-hierarchical-governance|L0-L4 分级治理体系]],覆盖预训练到 SFT 全阶段。
## 核心数据集
| 数据集 | 层级 | 规模 | 亮点 |
|--------|:---:|------|------|
| Ultra-FineWeb-L3 | L3 | 600B Tokens | 全球最大中文预训练合成数据 |
| UltraData-SFT-2605 | L3 | 千万级 | 含深思考/非思考全覆盖 |
| UltraData-Math | L3 | 100B Tokens | 数学专项,超越 Nemotron |
| UltraChat | L3 | — | 对话合成 |
| UltraFeedback | L3 | — | RLHF 反馈 |
## 验证MiniCPM5-1B
UltraData 的价值在 MiniCPM5-1B 上得到全链路验证:
- Artificial Analysis 排行榜 17.9 分(登顶)
- 超越 Qwen3.5-0.8B 和 LFM2.5-1.2B
- INT4 仅 ~0.5GB,端侧可运行
## 开源工具链
面壁智能同时开源了数据质量验证组件:
- 单一数据验证
- Epoch 搜索
- 评测去污
## 行业影响
UltraData 将数据治理从"黑箱秘方"变为"公共资产"——社区可以观察、复现和改进数据配方。
## 相关
- [[data-hierarchical-governance]] — 底层框架
- [[synthetic-data-qa-generation]] — L3合成方法
- [[deep-thinking-sft]] — SFT 数据特色