--- title: "UltraData" created: 2026-05-29 updated: 2026-05-29 type: concept tags: ["data-system", "open-source", "pretraining", "sft", "minicpm"] sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"] --- # UltraData **UltraData** 是面壁智能联合清华大学、OpenBMB 开源社区构建的大规模数据系统,基于 [[data-hierarchical-governance|L0-L4 分级治理体系]],覆盖预训练到 SFT 全阶段。 ## 核心数据集 | 数据集 | 层级 | 规模 | 亮点 | |--------|:---:|------|------| | Ultra-FineWeb-L3 | L3 | 600B Tokens | 全球最大中文预训练合成数据 | | UltraData-SFT-2605 | L3 | 千万级 | 含深思考/非思考全覆盖 | | UltraData-Math | L3 | 100B Tokens | 数学专项,超越 Nemotron | | UltraChat | L3 | — | 对话合成 | | UltraFeedback | L3 | — | RLHF 反馈 | ## 验证:MiniCPM5-1B UltraData 的价值在 MiniCPM5-1B 上得到全链路验证: - Artificial Analysis 排行榜 17.9 分(登顶) - 超越 Qwen3.5-0.8B 和 LFM2.5-1.2B - INT4 仅 ~0.5GB,端侧可运行 ## 开源工具链 面壁智能同时开源了数据质量验证组件: - 单一数据验证 - Epoch 搜索 - 评测去污 ## 行业影响 UltraData 将数据治理从"黑箱秘方"变为"公共资产"——社区可以观察、复现和改进数据配方。 ## 相关 - [[data-hierarchical-governance]] — 底层框架 - [[synthetic-data-qa-generation]] — L3合成方法 - [[deep-thinking-sft]] — SFT 数据特色