Files
myWiki/articles/ultradata-l3-open-source-2026.md
2026-06-01 10:46:01 +08:00

76 lines
3.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "UltraData面壁智能L3数据开源与数据分级治理体系"
created: 2026-05-29
updated: 2026-05-29
type: article
author: "面壁智能团队"
source: "Datawhale (微信公众号)"
url: "https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"
tags: ["data-governance", "pretraining", "synthetic-data", "sft", "open-source", "minicpm"]
---
# UltraData大模型数据分级治理的开源实践
> **作者**: 面壁智能团队 | **来源**: Datawhale | **收录**: 2026-05-29
## 核心命题
> "大模型竞争的下半场,焦点正从参数规模转向数据质量。当公开语料库逐渐耗尽,如何从存量数据中榨取出更高密度的知识?"
2026年5月面壁智能联合清华大学、OpenBMB开源 UltraData 系列 L3 数据集,并首次系统性公开 **L0-L4 数据分级治理体系**
## 一、L0-L4 数据分级治理
告别"爬取→去重→过滤→训练"的一刀切流水线,将数据按加工深度分五级:
| 层级 | 名称 | 加工方式 | 适用阶段 |
|:---:|------|------|------|
| **L0** | 原始数据 | 采集解析,未实质性处理 | 不直接训练 |
| **L1** | 过滤数据 | 启发式规则过滤+去重 | 预训练前期 |
| **L2** | 精筛数据 | 模型打分+标签标注 | 预训练中期 |
| **L3** | 合成与增强 | 改写、合成、多风格重写、人工标注 | 退火/SFT/RL |
| **L4** | 编排数据 | 可信校验+统一编排 | RAG等知识检索 |
参见 [[data-hierarchical-governance]]
核心逻辑:**"好钢用在刀刃上"**——预训练前期广撒网(L1/L2)退火和微调阶段用高密度L3数据激发推理。
## 二、Ultra-FineWeb-L3600B 中文合成数据
基于 L2 精筛网页,通过 Qwen3 + MiniCPM4 深度加工:
- 将"可读网页文本" → "好学Q&A数据"
- 600B Tokens中文>200B英文>400B
- 全球最大中文预训练合成数据集
参见 [[synthetic-data-qa-generation]]
## 三、UltraData-SFT-2605千万级推理秘方
- 国内首次开源千万级 SFT 数据
- 含"深思考"(完整思维链)与"非思考"样本
- 全流程质量治理透明化Query筛选→Answer校验→评测去污
参见 [[deep-thinking-sft]]
## 四、MiniCPM5-1B1B参数登顶
- Artificial Analysis 排行榜 **17.9分**,超越 Qwen3.5-0.8B
- INT4 仅 ~0.5GB,可运行在手机/浏览器/单片机
- L1/L2→L3→SFT 分阶段配置,最大化单位 Token 边际效益
## 五、行业意义
> "当模型架构趋于收敛,算力成本高企不下,数据成为差异化的主战场。"
UltraData 证明:通过 [[stage-matched-data-config|分阶段数据配置]],小参数也能激发出大能力。推动行业从"堆硬件堆参数"转向"数据精细化"。
## 概念网络
- [[data-hierarchical-governance]] — L0-L4 分级治理体系
- [[ultradata]] — UltraData 数据系统总览
- [[synthetic-data-qa-generation]] — 网页→Q&A合成
- [[stage-matched-data-config]] — 分阶段数据配置
- [[deep-thinking-sft]] — 深思考SFT数据
- [[data-quality-over-scale]] — 质量重于规模