Files
myWiki/concepts/data-hierarchical-governance.md
2026-06-01 10:46:01 +08:00

1.7 KiB

title, created, updated, type, tags, sources
title created updated type tags sources
Data Hierarchical Governance (L0-L4 数据分级治理) 2026-05-29 2026-05-29 concept
data-governance
pretraining
quality
pipeline
https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw

Data Hierarchical Governance (L0-L4 数据分级治理)

L0-L4 Data Hierarchical Governance 是面壁智能联合清华大学、OpenBMB 提出的数据治理框架:将训练数据按加工深度分为五个层级,按训练阶段匹配数据层级,最大化单位 Token 的边际效益。

五级体系

层级 名称 加工 成本 适用阶段
L0 原始数据 采集解析 极低 不直接训练
L1 过滤数据 启发式规则 预训练前期
L2 精筛数据 模型打分+标注 预训练中后期
L3 合成增强 改写/合成/人工标注 退火/SFT/RL
L4 编排数据 可信校验+编排 RAG

核心逻辑

"好钢用在刀刃上"

  • 前期(L1/L2):广撒网注入常识,用轻量级规则控制成本
  • 后期(L3):高密度、逻辑强、噪声少的合成数据激发推理
  • 端侧(L4):可直接用于 RAG 的知识检索

实验验证

面壁智能在英文网页、中文网页、数学和代码四个领域验证:

模型性能随数据层级从 L1 向 L3 逐级提升而持续增强

UltraData-Math (100B L3) 在 MATH 上领先 Nemotron-CC 4plus 3.62 分。

相关