myWiki/articles/ultradata-l3-open-source-2026.md

---
title: "UltraData：面壁智能L3数据开源与数据分级治理体系"
created: 2026-05-29
updated: 2026-05-29
type: article
author: "面壁智能团队"
source: "Datawhale (微信公众号)"
url: "https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"
tags: ["data-governance", "pretraining", "synthetic-data", "sft", "open-source", "minicpm"]
---

# UltraData：大模型数据分级治理的开源实践

> **作者**: 面壁智能团队 | **来源**: Datawhale | **收录**: 2026-05-29

## 核心命题

> "大模型竞争的下半场，焦点正从参数规模转向数据质量。当公开语料库逐渐耗尽，如何从存量数据中榨取出更高密度的知识？"

2026年5月，面壁智能联合清华大学、OpenBMB开源 UltraData 系列 L3 数据集，并首次系统性公开 **L0-L4 数据分级治理体系**。

## 一、L0-L4 数据分级治理

告别"爬取→去重→过滤→训练"的一刀切流水线，将数据按加工深度分五级：

| 层级 | 名称 | 加工方式 | 适用阶段 |
|:---:|------|------|------|
| **L0** | 原始数据 | 采集解析，未实质性处理 | 不直接训练 |
| **L1** | 过滤数据 | 启发式规则过滤+去重 | 预训练前期 |
| **L2** | 精筛数据 | 模型打分+标签标注 | 预训练中期 |
| **L3** | 合成与增强 | 改写、合成、多风格重写、人工标注 | 退火/SFT/RL |
| **L4** | 编排数据 | 可信校验+统一编排 | RAG等知识检索 |

参见 [[data-hierarchical-governance]]

核心逻辑：**"好钢用在刀刃上"**——预训练前期广撒网(L1/L2)，退火和微调阶段用高密度L3数据激发推理。

## 二、Ultra-FineWeb-L3：600B 中文合成数据

基于 L2 精筛网页，通过 Qwen3 + MiniCPM4 深度加工：

- 将"可读网页文本" → "好学Q&A数据"
- 600B Tokens（中文>200B，英文>400B）
- 全球最大中文预训练合成数据集

参见 [[synthetic-data-qa-generation]]

## 三、UltraData-SFT-2605：千万级推理秘方

- 国内首次开源千万级 SFT 数据
- 含"深思考"(完整思维链)与"非思考"样本
- 全流程质量治理透明化：Query筛选→Answer校验→评测去污

参见 [[deep-thinking-sft]]

## 四、MiniCPM5-1B：1B参数登顶

- Artificial Analysis 排行榜 **17.9分**，超越 Qwen3.5-0.8B
- INT4 仅 ~0.5GB，可运行在手机/浏览器/单片机
- L1/L2→L3→SFT 分阶段配置，最大化单位 Token 边际效益

## 五、行业意义

> "当模型架构趋于收敛，算力成本高企不下，数据成为差异化的主战场。"

UltraData 证明：通过 [[stage-matched-data-config|分阶段数据配置]]，小参数也能激发出大能力。推动行业从"堆硬件堆参数"转向"数据精细化"。

## 概念网络

- [[data-hierarchical-governance]] — L0-L4 分级治理体系
- [[ultradata]] — UltraData 数据系统总览
- [[synthetic-data-qa-generation]] — 网页→Q&A合成
- [[stage-matched-data-config]] — 分阶段数据配置
- [[deep-thinking-sft]] — 深思考SFT数据
- [[data-quality-over-scale]] — 质量重于规模