Files
myWiki/concepts/data-quality-over-scale.md
2026-06-01 10:46:01 +08:00

1.7 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Data Quality over Scale (数据质量重于规模) 2026-05-29 2026-05-29 concept
data-engineering
industry-trend
pretraining
efficiency
https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw

Data Quality over Scale (数据质量重于规模)

Data Quality over Scale 是面壁智能 UltraData 实践所推动的行业共识转向:当模型架构趋于收敛、算力成本高企不下时,数据质量——而非参数规模或算力投入——成为模型能力的核心决定因素。

范式转变

旧范式 新范式
堆硬件、堆参数 精细化数据治理
爬更多网页 从存量数据榨取更高密度知识
一刀切处理 [[data-hierarchical-governance
数据是"原料" 数据是"配方"

证据

  • MiniCPM5-1B1B参数超越 Qwen3.5-0.8B 和 LFM2.5-1.2B
  • UltraData-Math100B L3超越 Nemotron-CC 4plus更大规模
  • 同架构 + 更高质量数据 > 更大模型 + 更低质量数据

产业意义

  1. 端侧友好高质量数据意味着更少训练Token→更低内存和能耗
  2. 降低门槛:小团队不必堆算力,可以聚焦数据治理
  3. 开源加速:数据配方的公开使社区可以复现和改进

与大模型 Scaling Law 的关系

Data Quality over Scale 不是否定 Scaling Law而是深化在数据受限时代scaling 的重心从"更多数据"转移到"更优数据"。

相关