Files
myWiki/concepts/data-quality-vs-quantity.md

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
数据数量 vs 数据质量 2026-06-19 2026-06-19 concept
data-quality
data-engineering
ml-engineering
noise-threshold
https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/

数据数量 vs 数据质量

核心矛盾

在互联网规模语料库上训练基础模型时,数据越多越好。但在应用 ML 中,这种关系很快就会破裂。

噪声阈值效应

研究表明Qi et al., 2018超过噪声阈值后添加更多低质量数据会使模型性能变平或降低。样本大小和准确性之间的关系在噪声超过一定水平后破裂。

典型场景

医疗 AI

最明显的例子——具有专家验证标签的小数据集一再优于具有不可靠注释的大数据集。信号清晰 → 模型从较少数据中学到正确模式。

企业"数据沼泽"

团队收集所有数据,因为存储便宜 → 认为"总有一天有用"。没有治理:需要数周清理的数据池、增加存储和流程成本、减慢实验速度且不改善结果。

实用问题

我们的噪声有多噪?多清理 1 小时的数据和多收集一天的数据,各能给我们带来什么?

参考