20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/data-quality-over-scale.md
+++ b/concepts/data-quality-over-scale.md
@@ -0,0 +1,43 @@
+---
+title: "Data Quality over Scale (数据质量重于规模)"
+created: 2026-05-29
+updated: 2026-05-29
+type: concept
+tags: ["data-engineering", "industry-trend", "pretraining", "efficiency"]
+sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"]
+---
+
+# Data Quality over Scale (数据质量重于规模)
+
+**Data Quality over Scale** 是面壁智能 UltraData 实践所推动的行业共识转向：**当模型架构趋于收敛、算力成本高企不下时，数据质量——而非参数规模或算力投入——成为模型能力的核心决定因素。**
+
+## 范式转变
+
+| 旧范式 | 新范式 |
+|--------|--------|
+| 堆硬件、堆参数 | 精细化数据治理 |
+| 爬更多网页 | 从存量数据榨取更高密度知识 |
+| 一刀切处理 | [[data-hierarchical-governance|分级分阶段配置]] |
+| 数据是"原料" | 数据是"配方" |
+
+## 证据
+
+- MiniCPM5-1B（1B参数）超越 Qwen3.5-0.8B 和 LFM2.5-1.2B
+- UltraData-Math（100B L3）超越 Nemotron-CC 4plus（更大规模）
+- 同架构 + 更高质量数据 > 更大模型 + 更低质量数据
+
+## 产业意义
+
+1. **端侧友好**：高质量数据意味着更少训练Token→更低内存和能耗
+2. **降低门槛**：小团队不必堆算力，可以聚焦数据治理
+3. **开源加速**：数据配方的公开使社区可以复现和改进
+
+## 与大模型 Scaling Law 的关系
+
+Data Quality over Scale 不是否定 Scaling Law，而是**深化**它：在数据受限时代，scaling 的重心从"更多数据"转移到"更优数据"。
+
+## 相关
+
+- [[data-hierarchical-governance]] — 实现质量优先的方法
+- [[stage-matched-data-config]] — 质量×阶段的最优配置
+- [[ultradata]] — 实践案例