---
title: "Data Hierarchical Governance (L0-L4 数据分级治理)"
created: 2026-05-29
updated: 2026-05-29
type: concept
tags: ["data-governance", "pretraining", "quality", "pipeline"]
sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"]
---

# Data Hierarchical Governance (L0-L4 数据分级治理)

**L0-L4 Data Hierarchical Governance** 是面壁智能联合清华大学、OpenBMB 提出的数据治理框架：将训练数据按加工深度分为五个层级，按训练阶段匹配数据层级，最大化单位 Token 的边际效益。

## 五级体系

| 层级 | 名称 | 加工 | 成本 | 适用阶段 |
|:---:|------|------|:---:|------|
| **L0** | 原始数据 | 采集解析 | 极低 | 不直接训练 |
| **L1** | 过滤数据 | 启发式规则 | 低 | 预训练前期 |
| **L2** | 精筛数据 | 模型打分+标注 | 中 | 预训练中后期 |
| **L3** | 合成增强 | 改写/合成/人工标注 | 高 | 退火/SFT/RL |
| **L4** | 编排数据 | 可信校验+编排 | 中 | RAG |

## 核心逻辑

> "好钢用在刀刃上"

- **前期(L1/L2)**：广撒网注入常识，用轻量级规则控制成本
- **后期(L3)**：高密度、逻辑强、噪声少的合成数据激发推理
- **端侧(L4)**：可直接用于 RAG 的知识检索

## 实验验证

面壁智能在英文网页、中文网页、数学和代码四个领域验证：
> **模型性能随数据层级从 L1 向 L3 逐级提升而持续增强**

UltraData-Math (100B L3) 在 MATH 上领先 Nemotron-CC 4plus 3.62 分。

## 相关

- [[ultradata]] — 基于此体系的完整数据系统
- [[stage-matched-data-config]] — 分阶段配置策略
- [[data-quality-over-scale]] — 质量>规模的行业转向