39 lines
1.4 KiB
Markdown
39 lines
1.4 KiB
Markdown
---
|
||
title: "数据数量 vs 数据质量"
|
||
created: 2026-06-19
|
||
updated: 2026-06-19
|
||
type: concept
|
||
tags: [data-quality, data-engineering, ml-engineering, noise-threshold]
|
||
sources:
|
||
- https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
|
||
---
|
||
|
||
# 数据数量 vs 数据质量
|
||
|
||
## 核心矛盾
|
||
|
||
在互联网规模语料库上训练基础模型时,数据越多越好。但在**应用 ML** 中,这种关系很快就会破裂。
|
||
|
||
## 噪声阈值效应
|
||
|
||
研究表明(Qi et al., 2018):超过噪声阈值后,添加更多低质量数据会使模型性能**变平或降低**。样本大小和准确性之间的关系在噪声超过一定水平后破裂。
|
||
|
||
## 典型场景
|
||
|
||
### 医疗 AI
|
||
最明显的例子——具有专家验证标签的小数据集**一再优于**具有不可靠注释的大数据集。信号清晰 → 模型从较少数据中学到正确模式。
|
||
|
||
### 企业"数据沼泽"
|
||
团队收集所有数据,因为存储便宜 → 认为"总有一天有用"。没有治理:需要数周清理的数据池、增加存储和流程成本、减慢实验速度且不改善结果。
|
||
|
||
## 实用问题
|
||
|
||
> 我们的噪声有多噪?多清理 1 小时的数据和多收集一天的数据,各能给我们带来什么?
|
||
|
||
## 参考
|
||
|
||
- [[ai-production-tradeoffs|AI 生产权衡]]
|
||
- [[data-swamp|数据沼泽]]
|
||
- [[ml-technical-debt|ML 技术债务]]
|
||
- [[nobrega-ai-production-tradeoffs-2026|原文文章]]
|