3.0 KiB
3.0 KiB
title, created, updated, type, author, source, url, tags
| title | created | updated | type | author | source | url | tags | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| UltraData:面壁智能L3数据开源与数据分级治理体系 | 2026-05-29 | 2026-05-29 | article | 面壁智能团队 | Datawhale (微信公众号) | https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw |
|
UltraData:大模型数据分级治理的开源实践
作者: 面壁智能团队 | 来源: Datawhale | 收录: 2026-05-29
核心命题
"大模型竞争的下半场,焦点正从参数规模转向数据质量。当公开语料库逐渐耗尽,如何从存量数据中榨取出更高密度的知识?"
2026年5月,面壁智能联合清华大学、OpenBMB开源 UltraData 系列 L3 数据集,并首次系统性公开 L0-L4 数据分级治理体系。
一、L0-L4 数据分级治理
告别"爬取→去重→过滤→训练"的一刀切流水线,将数据按加工深度分五级:
| 层级 | 名称 | 加工方式 | 适用阶段 |
|---|---|---|---|
| L0 | 原始数据 | 采集解析,未实质性处理 | 不直接训练 |
| L1 | 过滤数据 | 启发式规则过滤+去重 | 预训练前期 |
| L2 | 精筛数据 | 模型打分+标签标注 | 预训练中期 |
| L3 | 合成与增强 | 改写、合成、多风格重写、人工标注 | 退火/SFT/RL |
| L4 | 编排数据 | 可信校验+统一编排 | RAG等知识检索 |
参见 data-hierarchical-governance
核心逻辑:"好钢用在刀刃上"——预训练前期广撒网(L1/L2),退火和微调阶段用高密度L3数据激发推理。
二、Ultra-FineWeb-L3:600B 中文合成数据
基于 L2 精筛网页,通过 Qwen3 + MiniCPM4 深度加工:
- 将"可读网页文本" → "好学Q&A数据"
- 600B Tokens(中文>200B,英文>400B)
- 全球最大中文预训练合成数据集
参见 synthetic-data-qa-generation
三、UltraData-SFT-2605:千万级推理秘方
- 国内首次开源千万级 SFT 数据
- 含"深思考"(完整思维链)与"非思考"样本
- 全流程质量治理透明化:Query筛选→Answer校验→评测去污
四、MiniCPM5-1B:1B参数登顶
- Artificial Analysis 排行榜 17.9分,超越 Qwen3.5-0.8B
- INT4 仅 ~0.5GB,可运行在手机/浏览器/单片机
- L1/L2→L3→SFT 分阶段配置,最大化单位 Token 边际效益
五、行业意义
"当模型架构趋于收敛,算力成本高企不下,数据成为差异化的主战场。"
UltraData 证明:通过 stage-matched-data-config,小参数也能激发出大能力。推动行业从"堆硬件堆参数"转向"数据精细化"。
概念网络
- data-hierarchical-governance — L0-L4 分级治理体系
- ultradata — UltraData 数据系统总览
- synthetic-data-qa-generation — 网页→Q&A合成
- stage-matched-data-config — 分阶段数据配置
- deep-thinking-sft — 深思考SFT数据
- data-quality-over-scale — 质量重于规模