Files
myWiki/concepts/data-quality-over-scale.md
2026-06-01 10:46:01 +08:00

44 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Data Quality over Scale (数据质量重于规模)"
created: 2026-05-29
updated: 2026-05-29
type: concept
tags: ["data-engineering", "industry-trend", "pretraining", "efficiency"]
sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"]
---
# Data Quality over Scale (数据质量重于规模)
**Data Quality over Scale** 是面壁智能 UltraData 实践所推动的行业共识转向:**当模型架构趋于收敛、算力成本高企不下时,数据质量——而非参数规模或算力投入——成为模型能力的核心决定因素。**
## 范式转变
| 旧范式 | 新范式 |
|--------|--------|
| 堆硬件、堆参数 | 精细化数据治理 |
| 爬更多网页 | 从存量数据榨取更高密度知识 |
| 一刀切处理 | [[data-hierarchical-governance|分级分阶段配置]] |
| 数据是"原料" | 数据是"配方" |
## 证据
- MiniCPM5-1B1B参数超越 Qwen3.5-0.8B 和 LFM2.5-1.2B
- UltraData-Math100B L3超越 Nemotron-CC 4plus更大规模
- 同架构 + 更高质量数据 > 更大模型 + 更低质量数据
## 产业意义
1. **端侧友好**高质量数据意味着更少训练Token→更低内存和能耗
2. **降低门槛**:小团队不必堆算力,可以聚焦数据治理
3. **开源加速**:数据配方的公开使社区可以复现和改进
## 与大模型 Scaling Law 的关系
Data Quality over Scale 不是否定 Scaling Law而是**深化**它在数据受限时代scaling 的重心从"更多数据"转移到"更优数据"。
## 相关
- [[data-hierarchical-governance]] — 实现质量优先的方法
- [[stage-matched-data-config]] — 质量×阶段的最优配置
- [[ultradata]] — 实践案例