This commit is contained in:
2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions

View File

@@ -0,0 +1,43 @@
---
title: "Data Hierarchical Governance (L0-L4 数据分级治理)"
created: 2026-05-29
updated: 2026-05-29
type: concept
tags: ["data-governance", "pretraining", "quality", "pipeline"]
sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"]
---
# Data Hierarchical Governance (L0-L4 数据分级治理)
**L0-L4 Data Hierarchical Governance** 是面壁智能联合清华大学、OpenBMB 提出的数据治理框架:将训练数据按加工深度分为五个层级,按训练阶段匹配数据层级,最大化单位 Token 的边际效益。
## 五级体系
| 层级 | 名称 | 加工 | 成本 | 适用阶段 |
|:---:|------|------|:---:|------|
| **L0** | 原始数据 | 采集解析 | 极低 | 不直接训练 |
| **L1** | 过滤数据 | 启发式规则 | 低 | 预训练前期 |
| **L2** | 精筛数据 | 模型打分+标注 | 中 | 预训练中后期 |
| **L3** | 合成增强 | 改写/合成/人工标注 | 高 | 退火/SFT/RL |
| **L4** | 编排数据 | 可信校验+编排 | 中 | RAG |
## 核心逻辑
> "好钢用在刀刃上"
- **前期(L1/L2)**:广撒网注入常识,用轻量级规则控制成本
- **后期(L3)**:高密度、逻辑强、噪声少的合成数据激发推理
- **端侧(L4)**:可直接用于 RAG 的知识检索
## 实验验证
面壁智能在英文网页、中文网页、数学和代码四个领域验证:
> **模型性能随数据层级从 L1 向 L3 逐级提升而持续增强**
UltraData-Math (100B L3) 在 MATH 上领先 Nemotron-CC 4plus 3.62 分。
## 相关
- [[ultradata]] — 基于此体系的完整数据系统
- [[stage-matched-data-config]] — 分阶段配置策略
- [[data-quality-over-scale]] — 质量>规模的行业转向