44 lines
1.7 KiB
Markdown
44 lines
1.7 KiB
Markdown
---
|
||
title: "Data Quality over Scale (数据质量重于规模)"
|
||
created: 2026-05-29
|
||
updated: 2026-05-29
|
||
type: concept
|
||
tags: ["data-engineering", "industry-trend", "pretraining", "efficiency"]
|
||
sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"]
|
||
---
|
||
|
||
# Data Quality over Scale (数据质量重于规模)
|
||
|
||
**Data Quality over Scale** 是面壁智能 UltraData 实践所推动的行业共识转向:**当模型架构趋于收敛、算力成本高企不下时,数据质量——而非参数规模或算力投入——成为模型能力的核心决定因素。**
|
||
|
||
## 范式转变
|
||
|
||
| 旧范式 | 新范式 |
|
||
|--------|--------|
|
||
| 堆硬件、堆参数 | 精细化数据治理 |
|
||
| 爬更多网页 | 从存量数据榨取更高密度知识 |
|
||
| 一刀切处理 | [[data-hierarchical-governance|分级分阶段配置]] |
|
||
| 数据是"原料" | 数据是"配方" |
|
||
|
||
## 证据
|
||
|
||
- MiniCPM5-1B(1B参数)超越 Qwen3.5-0.8B 和 LFM2.5-1.2B
|
||
- UltraData-Math(100B L3)超越 Nemotron-CC 4plus(更大规模)
|
||
- 同架构 + 更高质量数据 > 更大模型 + 更低质量数据
|
||
|
||
## 产业意义
|
||
|
||
1. **端侧友好**:高质量数据意味着更少训练Token→更低内存和能耗
|
||
2. **降低门槛**:小团队不必堆算力,可以聚焦数据治理
|
||
3. **开源加速**:数据配方的公开使社区可以复现和改进
|
||
|
||
## 与大模型 Scaling Law 的关系
|
||
|
||
Data Quality over Scale 不是否定 Scaling Law,而是**深化**它:在数据受限时代,scaling 的重心从"更多数据"转移到"更优数据"。
|
||
|
||
## 相关
|
||
|
||
- [[data-hierarchical-governance]] — 实现质量优先的方法
|
||
- [[stage-matched-data-config]] — 质量×阶段的最优配置
|
||
- [[ultradata]] — 实践案例
|