title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| Data Quality over Scale (数据质量重于规模) |
2026-05-29 |
2026-05-29 |
concept |
| data-engineering |
| industry-trend |
| pretraining |
| efficiency |
|
|
Data Quality over Scale (数据质量重于规模)
Data Quality over Scale 是面壁智能 UltraData 实践所推动的行业共识转向:当模型架构趋于收敛、算力成本高企不下时,数据质量——而非参数规模或算力投入——成为模型能力的核心决定因素。
范式转变
| 旧范式 |
新范式 |
| 堆硬件、堆参数 |
精细化数据治理 |
| 爬更多网页 |
从存量数据榨取更高密度知识 |
| 一刀切处理 |
[[data-hierarchical-governance |
| 数据是"原料" |
数据是"配方" |
证据
- MiniCPM5-1B(1B参数)超越 Qwen3.5-0.8B 和 LFM2.5-1.2B
- UltraData-Math(100B L3)超越 Nemotron-CC 4plus(更大规模)
- 同架构 + 更高质量数据 > 更大模型 + 更低质量数据
产业意义
- 端侧友好:高质量数据意味着更少训练Token→更低内存和能耗
- 降低门槛:小团队不必堆算力,可以聚焦数据治理
- 开源加速:数据配方的公开使社区可以复现和改进
与大模型 Scaling Law 的关系
Data Quality over Scale 不是否定 Scaling Law,而是深化它:在数据受限时代,scaling 的重心从"更多数据"转移到"更优数据"。
相关