1.3 KiB
1.3 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 数据沼泽 — Data Swamp | 2026-06-19 | 2026-06-19 | concept |
|
|
数据沼泽(Data Swamp)
定义
数据沼泽是企业在无数据治理情况下的典型困境:因为存储便宜而收集所有数据,认为"总有一天会有用",但最终得到一个需要数周清理、增加成本、减慢实验却不改善结果的数据池。
成因
- 存储成本持续下降 → "先存着再说"的心态
- 缺少数据治理框架和生命周期管理
- 缺乏与下游 ML 任务的成本关联
代价
- 清理成本:数周时间的工程投入
- 存储成本:持续增长的云账单
- 流程成本:慢实验迭代、低质量特征
- 机会成本:模型性能不提升甚至下降
与数据质量的关系
这与 data-quality-vs-quantity 的噪声阈值效应直接相关——超过阈值后,更多低质量数据不仅无益,反而有害。