--- title: "数据沼泽 — Data Swamp" created: 2026-06-19 updated: 2026-06-19 type: concept tags: [data-engineering, data-quality, data-governance, ml-engineering] sources: - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/ --- # 数据沼泽(Data Swamp) ## 定义 **数据沼泽**是企业在无数据治理情况下的典型困境:因为存储便宜而收集所有数据,认为"总有一天会有用",但最终得到一个需要数周清理、增加成本、减慢实验却不改善结果的数据池。 ## 成因 - 存储成本持续下降 → "先存着再说"的心态 - 缺少数据治理框架和生命周期管理 - 缺乏与下游 ML 任务的成本关联 ## 代价 - **清理成本**:数周时间的工程投入 - **存储成本**:持续增长的云账单 - **流程成本**:慢实验迭代、低质量特征 - **机会成本**:模型性能不提升甚至下降 ## 与数据质量的关系 这与 [[data-quality-vs-quantity|数据数量 vs 数据质量]] 的噪声阈值效应直接相关——超过阈值后,更多低质量数据不仅无益,反而有害。 ## 参考 - [[data-quality-vs-quantity|数据数量 vs 数据质量]] - [[ml-technical-debt|ML 技术债务]] - [[ai-production-tradeoffs|AI 生产权衡]]