20260601
This commit is contained in:
75
articles/ultradata-l3-open-source-2026.md
Normal file
75
articles/ultradata-l3-open-source-2026.md
Normal file
@@ -0,0 +1,75 @@
|
||||
---
|
||||
title: "UltraData:面壁智能L3数据开源与数据分级治理体系"
|
||||
created: 2026-05-29
|
||||
updated: 2026-05-29
|
||||
type: article
|
||||
author: "面壁智能团队"
|
||||
source: "Datawhale (微信公众号)"
|
||||
url: "https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"
|
||||
tags: ["data-governance", "pretraining", "synthetic-data", "sft", "open-source", "minicpm"]
|
||||
---
|
||||
|
||||
# UltraData:大模型数据分级治理的开源实践
|
||||
|
||||
> **作者**: 面壁智能团队 | **来源**: Datawhale | **收录**: 2026-05-29
|
||||
|
||||
## 核心命题
|
||||
|
||||
> "大模型竞争的下半场,焦点正从参数规模转向数据质量。当公开语料库逐渐耗尽,如何从存量数据中榨取出更高密度的知识?"
|
||||
|
||||
2026年5月,面壁智能联合清华大学、OpenBMB开源 UltraData 系列 L3 数据集,并首次系统性公开 **L0-L4 数据分级治理体系**。
|
||||
|
||||
## 一、L0-L4 数据分级治理
|
||||
|
||||
告别"爬取→去重→过滤→训练"的一刀切流水线,将数据按加工深度分五级:
|
||||
|
||||
| 层级 | 名称 | 加工方式 | 适用阶段 |
|
||||
|:---:|------|------|------|
|
||||
| **L0** | 原始数据 | 采集解析,未实质性处理 | 不直接训练 |
|
||||
| **L1** | 过滤数据 | 启发式规则过滤+去重 | 预训练前期 |
|
||||
| **L2** | 精筛数据 | 模型打分+标签标注 | 预训练中期 |
|
||||
| **L3** | 合成与增强 | 改写、合成、多风格重写、人工标注 | 退火/SFT/RL |
|
||||
| **L4** | 编排数据 | 可信校验+统一编排 | RAG等知识检索 |
|
||||
|
||||
参见 [[data-hierarchical-governance]]
|
||||
|
||||
核心逻辑:**"好钢用在刀刃上"**——预训练前期广撒网(L1/L2),退火和微调阶段用高密度L3数据激发推理。
|
||||
|
||||
## 二、Ultra-FineWeb-L3:600B 中文合成数据
|
||||
|
||||
基于 L2 精筛网页,通过 Qwen3 + MiniCPM4 深度加工:
|
||||
|
||||
- 将"可读网页文本" → "好学Q&A数据"
|
||||
- 600B Tokens(中文>200B,英文>400B)
|
||||
- 全球最大中文预训练合成数据集
|
||||
|
||||
参见 [[synthetic-data-qa-generation]]
|
||||
|
||||
## 三、UltraData-SFT-2605:千万级推理秘方
|
||||
|
||||
- 国内首次开源千万级 SFT 数据
|
||||
- 含"深思考"(完整思维链)与"非思考"样本
|
||||
- 全流程质量治理透明化:Query筛选→Answer校验→评测去污
|
||||
|
||||
参见 [[deep-thinking-sft]]
|
||||
|
||||
## 四、MiniCPM5-1B:1B参数登顶
|
||||
|
||||
- Artificial Analysis 排行榜 **17.9分**,超越 Qwen3.5-0.8B
|
||||
- INT4 仅 ~0.5GB,可运行在手机/浏览器/单片机
|
||||
- L1/L2→L3→SFT 分阶段配置,最大化单位 Token 边际效益
|
||||
|
||||
## 五、行业意义
|
||||
|
||||
> "当模型架构趋于收敛,算力成本高企不下,数据成为差异化的主战场。"
|
||||
|
||||
UltraData 证明:通过 [[stage-matched-data-config|分阶段数据配置]],小参数也能激发出大能力。推动行业从"堆硬件堆参数"转向"数据精细化"。
|
||||
|
||||
## 概念网络
|
||||
|
||||
- [[data-hierarchical-governance]] — L0-L4 分级治理体系
|
||||
- [[ultradata]] — UltraData 数据系统总览
|
||||
- [[synthetic-data-qa-generation]] — 网页→Q&A合成
|
||||
- [[stage-matched-data-config]] — 分阶段数据配置
|
||||
- [[deep-thinking-sft]] — 深思考SFT数据
|
||||
- [[data-quality-over-scale]] — 质量重于规模
|
||||
Reference in New Issue
Block a user