Files
myWiki/articles/ultradata-l3-open-source-2026.md
2026-06-01 10:46:01 +08:00

3.0 KiB
Raw Blame History

title, created, updated, type, author, source, url, tags
title created updated type author source url tags
UltraData面壁智能L3数据开源与数据分级治理体系 2026-05-29 2026-05-29 article 面壁智能团队 Datawhale (微信公众号) https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw
data-governance
pretraining
synthetic-data
sft
open-source
minicpm

UltraData大模型数据分级治理的开源实践

作者: 面壁智能团队 | 来源: Datawhale | 收录: 2026-05-29

核心命题

"大模型竞争的下半场,焦点正从参数规模转向数据质量。当公开语料库逐渐耗尽,如何从存量数据中榨取出更高密度的知识?"

2026年5月面壁智能联合清华大学、OpenBMB开源 UltraData 系列 L3 数据集,并首次系统性公开 L0-L4 数据分级治理体系

一、L0-L4 数据分级治理

告别"爬取→去重→过滤→训练"的一刀切流水线,将数据按加工深度分五级:

层级 名称 加工方式 适用阶段
L0 原始数据 采集解析,未实质性处理 不直接训练
L1 过滤数据 启发式规则过滤+去重 预训练前期
L2 精筛数据 模型打分+标签标注 预训练中期
L3 合成与增强 改写、合成、多风格重写、人工标注 退火/SFT/RL
L4 编排数据 可信校验+统一编排 RAG等知识检索

参见 data-hierarchical-governance

核心逻辑:"好钢用在刀刃上"——预训练前期广撒网(L1/L2)退火和微调阶段用高密度L3数据激发推理。

二、Ultra-FineWeb-L3600B 中文合成数据

基于 L2 精筛网页,通过 Qwen3 + MiniCPM4 深度加工:

  • 将"可读网页文本" → "好学Q&A数据"
  • 600B Tokens中文>200B英文>400B
  • 全球最大中文预训练合成数据集

参见 synthetic-data-qa-generation

三、UltraData-SFT-2605千万级推理秘方

  • 国内首次开源千万级 SFT 数据
  • 含"深思考"(完整思维链)与"非思考"样本
  • 全流程质量治理透明化Query筛选→Answer校验→评测去污

参见 deep-thinking-sft

四、MiniCPM5-1B1B参数登顶

  • Artificial Analysis 排行榜 17.9分,超越 Qwen3.5-0.8B
  • INT4 仅 ~0.5GB,可运行在手机/浏览器/单片机
  • L1/L2→L3→SFT 分阶段配置,最大化单位 Token 边际效益

五、行业意义

"当模型架构趋于收敛,算力成本高企不下,数据成为差异化的主战场。"

UltraData 证明:通过 stage-matched-data-config,小参数也能激发出大能力。推动行业从"堆硬件堆参数"转向"数据精细化"。

概念网络