Files
myWiki/concepts/ultradata.md
2026-06-01 10:46:01 +08:00

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
UltraData 2026-05-29 2026-05-29 concept
data-system
open-source
pretraining
sft
minicpm
https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw

UltraData

UltraData 是面壁智能联合清华大学、OpenBMB 开源社区构建的大规模数据系统,基于 data-hierarchical-governance,覆盖预训练到 SFT 全阶段。

核心数据集

数据集 层级 规模 亮点
Ultra-FineWeb-L3 L3 600B Tokens 全球最大中文预训练合成数据
UltraData-SFT-2605 L3 千万级 含深思考/非思考全覆盖
UltraData-Math L3 100B Tokens 数学专项,超越 Nemotron
UltraChat L3 对话合成
UltraFeedback L3 RLHF 反馈

验证MiniCPM5-1B

UltraData 的价值在 MiniCPM5-1B 上得到全链路验证:

  • Artificial Analysis 排行榜 17.9 分(登顶)
  • 超越 Qwen3.5-0.8B 和 LFM2.5-1.2B
  • INT4 仅 ~0.5GB,端侧可运行

开源工具链

面壁智能同时开源了数据质量验证组件:

  • 单一数据验证
  • Epoch 搜索
  • 评测去污

行业影响

UltraData 将数据治理从"黑箱秘方"变为"公共资产"——社区可以观察、复现和改进数据配方。

相关