Files
myWiki/concepts/data-quality-vs-quantity.md

39 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "数据数量 vs 数据质量"
created: 2026-06-19
updated: 2026-06-19
type: concept
tags: [data-quality, data-engineering, ml-engineering, noise-threshold]
sources:
- https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
---
# 数据数量 vs 数据质量
## 核心矛盾
在互联网规模语料库上训练基础模型时,数据越多越好。但在**应用 ML** 中,这种关系很快就会破裂。
## 噪声阈值效应
研究表明Qi et al., 2018超过噪声阈值后添加更多低质量数据会使模型性能**变平或降低**。样本大小和准确性之间的关系在噪声超过一定水平后破裂。
## 典型场景
### 医疗 AI
最明显的例子——具有专家验证标签的小数据集**一再优于**具有不可靠注释的大数据集。信号清晰 → 模型从较少数据中学到正确模式。
### 企业"数据沼泽"
团队收集所有数据,因为存储便宜 → 认为"总有一天有用"。没有治理:需要数周清理的数据池、增加存储和流程成本、减慢实验速度且不改善结果。
## 实用问题
> 我们的噪声有多噪?多清理 1 小时的数据和多收集一天的数据,各能给我们带来什么?
## 参考
- [[ai-production-tradeoffs|AI 生产权衡]]
- [[data-swamp|数据沼泽]]
- [[ml-technical-debt|ML 技术债务]]
- [[nobrega-ai-production-tradeoffs-2026|原文文章]]