1.4 KiB
1.4 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| UltraData | 2026-05-29 | 2026-05-29 | concept |
|
|
UltraData
UltraData 是面壁智能联合清华大学、OpenBMB 开源社区构建的大规模数据系统,基于 data-hierarchical-governance,覆盖预训练到 SFT 全阶段。
核心数据集
| 数据集 | 层级 | 规模 | 亮点 |
|---|---|---|---|
| Ultra-FineWeb-L3 | L3 | 600B Tokens | 全球最大中文预训练合成数据 |
| UltraData-SFT-2605 | L3 | 千万级 | 含深思考/非思考全覆盖 |
| UltraData-Math | L3 | 100B Tokens | 数学专项,超越 Nemotron |
| UltraChat | L3 | — | 对话合成 |
| UltraFeedback | L3 | — | RLHF 反馈 |
验证:MiniCPM5-1B
UltraData 的价值在 MiniCPM5-1B 上得到全链路验证:
- Artificial Analysis 排行榜 17.9 分(登顶)
- 超越 Qwen3.5-0.8B 和 LFM2.5-1.2B
- INT4 仅 ~0.5GB,端侧可运行
开源工具链
面壁智能同时开源了数据质量验证组件:
- 单一数据验证
- Epoch 搜索
- 评测去污
行业影响
UltraData 将数据治理从"黑箱秘方"变为"公共资产"——社区可以观察、复现和改进数据配方。
相关
- data-hierarchical-governance — 底层框架
- synthetic-data-qa-generation — L3合成方法
- deep-thinking-sft — SFT 数据特色