myWiki/concepts/data-swamp.md

---
title: "数据沼泽 — Data Swamp"
created: 2026-06-19
updated: 2026-06-19
type: concept
tags: [data-engineering, data-quality, data-governance, ml-engineering]
sources:
  - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
---

# 数据沼泽（Data Swamp）

## 定义

**数据沼泽**是企业在无数据治理情况下的典型困境：因为存储便宜而收集所有数据，认为"总有一天会有用"，但最终得到一个需要数周清理、增加成本、减慢实验却不改善结果的数据池。

## 成因

- 存储成本持续下降 → "先存着再说"的心态
- 缺少数据治理框架和生命周期管理
- 缺乏与下游 ML 任务的成本关联

## 代价

- **清理成本**：数周时间的工程投入
- **存储成本**：持续增长的云账单
- **流程成本**：慢实验迭代、低质量特征
- **机会成本**：模型性能不提升甚至下降

## 与数据质量的关系

这与 [[data-quality-vs-quantity|数据数量 vs 数据质量]] 的噪声阈值效应直接相关——超过阈值后，更多低质量数据不仅无益，反而有害。

## 参考

- [[data-quality-vs-quantity|数据数量 vs 数据质量]]
- [[ml-technical-debt|ML 技术债务]]
- [[ai-production-tradeoffs|AI 生产权衡]]