--- title: "Data Hierarchical Governance (L0-L4 数据分级治理)" created: 2026-05-29 updated: 2026-05-29 type: concept tags: ["data-governance", "pretraining", "quality", "pipeline"] sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"] --- # Data Hierarchical Governance (L0-L4 数据分级治理) **L0-L4 Data Hierarchical Governance** 是面壁智能联合清华大学、OpenBMB 提出的数据治理框架:将训练数据按加工深度分为五个层级,按训练阶段匹配数据层级,最大化单位 Token 的边际效益。 ## 五级体系 | 层级 | 名称 | 加工 | 成本 | 适用阶段 | |:---:|------|------|:---:|------| | **L0** | 原始数据 | 采集解析 | 极低 | 不直接训练 | | **L1** | 过滤数据 | 启发式规则 | 低 | 预训练前期 | | **L2** | 精筛数据 | 模型打分+标注 | 中 | 预训练中后期 | | **L3** | 合成增强 | 改写/合成/人工标注 | 高 | 退火/SFT/RL | | **L4** | 编排数据 | 可信校验+编排 | 中 | RAG | ## 核心逻辑 > "好钢用在刀刃上" - **前期(L1/L2)**:广撒网注入常识,用轻量级规则控制成本 - **后期(L3)**:高密度、逻辑强、噪声少的合成数据激发推理 - **端侧(L4)**:可直接用于 RAG 的知识检索 ## 实验验证 面壁智能在英文网页、中文网页、数学和代码四个领域验证: > **模型性能随数据层级从 L1 向 L3 逐级提升而持续增强** UltraData-Math (100B L3) 在 MATH 上领先 Nemotron-CC 4plus 3.62 分。 ## 相关 - [[ultradata]] — 基于此体系的完整数据系统 - [[stage-matched-data-config]] — 分阶段配置策略 - [[data-quality-over-scale]] — 质量>规模的行业转向