Files
myWiki/concepts/data-swamp.md

1.3 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
数据沼泽 — Data Swamp 2026-06-19 2026-06-19 concept
data-engineering
data-quality
data-governance
ml-engineering
https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/

数据沼泽Data Swamp

定义

数据沼泽是企业在无数据治理情况下的典型困境:因为存储便宜而收集所有数据,认为"总有一天会有用",但最终得到一个需要数周清理、增加成本、减慢实验却不改善结果的数据池。

成因

  • 存储成本持续下降 → "先存着再说"的心态
  • 缺少数据治理框架和生命周期管理
  • 缺乏与下游 ML 任务的成本关联

代价

  • 清理成本:数周时间的工程投入
  • 存储成本:持续增长的云账单
  • 流程成本:慢实验迭代、低质量特征
  • 机会成本:模型性能不提升甚至下降

与数据质量的关系

这与 data-quality-vs-quantity 的噪声阈值效应直接相关——超过阈值后,更多低质量数据不仅无益,反而有害。

参考