SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

3.0 KiB

Raw Blame History

title, created, updated, type, author, source, url, tags

title

created

updated

type

author

source

url

tags

UltraData：面壁智能L3数据开源与数据分级治理体系

2026-05-29

2026-05-29

article

面壁智能团队

Datawhale (微信公众号)

https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw

data-governance

pretraining

synthetic-data

sft

open-source

minicpm

UltraData：大模型数据分级治理的开源实践

作者: 面壁智能团队 | 来源: Datawhale | 收录: 2026-05-29

核心命题

"大模型竞争的下半场，焦点正从参数规模转向数据质量。当公开语料库逐渐耗尽，如何从存量数据中榨取出更高密度的知识？"

2026年5月，面壁智能联合清华大学、OpenBMB开源 UltraData 系列 L3 数据集，并首次系统性公开 L0-L4 数据分级治理体系。

一、L0-L4 数据分级治理

告别"爬取→去重→过滤→训练"的一刀切流水线，将数据按加工深度分五级：

层级	名称	加工方式	适用阶段
L0	原始数据	采集解析，未实质性处理	不直接训练
L1	过滤数据	启发式规则过滤+去重	预训练前期
L2	精筛数据	模型打分+标签标注	预训练中期
L3	合成与增强	改写、合成、多风格重写、人工标注	退火/SFT/RL
L4	编排数据	可信校验+统一编排	RAG等知识检索

参见 data-hierarchical-governance

核心逻辑："好钢用在刀刃上"——预训练前期广撒网(L1/L2)，退火和微调阶段用高密度L3数据激发推理。

二、Ultra-FineWeb-L3：600B 中文合成数据

基于 L2 精筛网页，通过 Qwen3 + MiniCPM4 深度加工：

将"可读网页文本" → "好学Q&A数据"
600B Tokens（中文>200B，英文>400B）
全球最大中文预训练合成数据集

参见 synthetic-data-qa-generation

三、UltraData-SFT-2605：千万级推理秘方

国内首次开源千万级 SFT 数据
含"深思考"(完整思维链)与"非思考"样本
全流程质量治理透明化：Query筛选→Answer校验→评测去污

参见 deep-thinking-sft

四、MiniCPM5-1B：1B参数登顶

Artificial Analysis 排行榜 17.9分，超越 Qwen3.5-0.8B
INT4 仅 ~0.5GB，可运行在手机/浏览器/单片机
L1/L2→L3→SFT 分阶段配置，最大化单位 Token 边际效益

五、行业意义

"当模型架构趋于收敛，算力成本高企不下，数据成为差异化的主战场。"

UltraData 证明：通过 stage-matched-data-config，小参数也能激发出大能力。推动行业从"堆硬件堆参数"转向"数据精细化"。

概念网络

data-hierarchical-governance — L0-L4 分级治理体系
ultradata — UltraData 数据系统总览
synthetic-data-qa-generation — 网页→Q&A合成
stage-matched-data-config — 分阶段数据配置
deep-thinking-sft — 深思考SFT数据
data-quality-over-scale — 质量重于规模