--- title: "UltraData:面壁智能L3数据开源与数据分级治理体系" created: 2026-05-29 updated: 2026-05-29 type: article author: "面壁智能团队" source: "Datawhale (微信公众号)" url: "https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw" tags: ["data-governance", "pretraining", "synthetic-data", "sft", "open-source", "minicpm"] --- # UltraData:大模型数据分级治理的开源实践 > **作者**: 面壁智能团队 | **来源**: Datawhale | **收录**: 2026-05-29 ## 核心命题 > "大模型竞争的下半场,焦点正从参数规模转向数据质量。当公开语料库逐渐耗尽,如何从存量数据中榨取出更高密度的知识?" 2026年5月,面壁智能联合清华大学、OpenBMB开源 UltraData 系列 L3 数据集,并首次系统性公开 **L0-L4 数据分级治理体系**。 ## 一、L0-L4 数据分级治理 告别"爬取→去重→过滤→训练"的一刀切流水线,将数据按加工深度分五级: | 层级 | 名称 | 加工方式 | 适用阶段 | |:---:|------|------|------| | **L0** | 原始数据 | 采集解析,未实质性处理 | 不直接训练 | | **L1** | 过滤数据 | 启发式规则过滤+去重 | 预训练前期 | | **L2** | 精筛数据 | 模型打分+标签标注 | 预训练中期 | | **L3** | 合成与增强 | 改写、合成、多风格重写、人工标注 | 退火/SFT/RL | | **L4** | 编排数据 | 可信校验+统一编排 | RAG等知识检索 | 参见 [[data-hierarchical-governance]] 核心逻辑:**"好钢用在刀刃上"**——预训练前期广撒网(L1/L2),退火和微调阶段用高密度L3数据激发推理。 ## 二、Ultra-FineWeb-L3:600B 中文合成数据 基于 L2 精筛网页,通过 Qwen3 + MiniCPM4 深度加工: - 将"可读网页文本" → "好学Q&A数据" - 600B Tokens(中文>200B,英文>400B) - 全球最大中文预训练合成数据集 参见 [[synthetic-data-qa-generation]] ## 三、UltraData-SFT-2605:千万级推理秘方 - 国内首次开源千万级 SFT 数据 - 含"深思考"(完整思维链)与"非思考"样本 - 全流程质量治理透明化:Query筛选→Answer校验→评测去污 参见 [[deep-thinking-sft]] ## 四、MiniCPM5-1B:1B参数登顶 - Artificial Analysis 排行榜 **17.9分**,超越 Qwen3.5-0.8B - INT4 仅 ~0.5GB,可运行在手机/浏览器/单片机 - L1/L2→L3→SFT 分阶段配置,最大化单位 Token 边际效益 ## 五、行业意义 > "当模型架构趋于收敛,算力成本高企不下,数据成为差异化的主战场。" UltraData 证明:通过 [[stage-matched-data-config|分阶段数据配置]],小参数也能激发出大能力。推动行业从"堆硬件堆参数"转向"数据精细化"。 ## 概念网络 - [[data-hierarchical-governance]] — L0-L4 分级治理体系 - [[ultradata]] — UltraData 数据系统总览 - [[synthetic-data-qa-generation]] — 网页→Q&A合成 - [[stage-matched-data-config]] — 分阶段数据配置 - [[deep-thinking-sft]] — 深思考SFT数据 - [[data-quality-over-scale]] — 质量重于规模