1.7 KiB
1.7 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Data Hierarchical Governance (L0-L4 数据分级治理) | 2026-05-29 | 2026-05-29 | concept |
|
|
Data Hierarchical Governance (L0-L4 数据分级治理)
L0-L4 Data Hierarchical Governance 是面壁智能联合清华大学、OpenBMB 提出的数据治理框架:将训练数据按加工深度分为五个层级,按训练阶段匹配数据层级,最大化单位 Token 的边际效益。
五级体系
| 层级 | 名称 | 加工 | 成本 | 适用阶段 |
|---|---|---|---|---|
| L0 | 原始数据 | 采集解析 | 极低 | 不直接训练 |
| L1 | 过滤数据 | 启发式规则 | 低 | 预训练前期 |
| L2 | 精筛数据 | 模型打分+标注 | 中 | 预训练中后期 |
| L3 | 合成增强 | 改写/合成/人工标注 | 高 | 退火/SFT/RL |
| L4 | 编排数据 | 可信校验+编排 | 中 | RAG |
核心逻辑
"好钢用在刀刃上"
- 前期(L1/L2):广撒网注入常识,用轻量级规则控制成本
- 后期(L3):高密度、逻辑强、噪声少的合成数据激发推理
- 端侧(L4):可直接用于 RAG 的知识检索
实验验证
面壁智能在英文网页、中文网页、数学和代码四个领域验证:
模型性能随数据层级从 L1 向 L3 逐级提升而持续增强
UltraData-Math (100B L3) 在 MATH 上领先 Nemotron-CC 4plus 3.62 分。
相关
- ultradata — 基于此体系的完整数据系统
- stage-matched-data-config — 分阶段配置策略
- data-quality-over-scale — 质量>规模的行业转向