Files
myWiki/concepts/data-swamp.md

39 lines
1.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "数据沼泽 — Data Swamp"
created: 2026-06-19
updated: 2026-06-19
type: concept
tags: [data-engineering, data-quality, data-governance, ml-engineering]
sources:
- https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
---
# 数据沼泽Data Swamp
## 定义
**数据沼泽**是企业在无数据治理情况下的典型困境:因为存储便宜而收集所有数据,认为"总有一天会有用",但最终得到一个需要数周清理、增加成本、减慢实验却不改善结果的数据池。
## 成因
- 存储成本持续下降 → "先存着再说"的心态
- 缺少数据治理框架和生命周期管理
- 缺乏与下游 ML 任务的成本关联
## 代价
- **清理成本**:数周时间的工程投入
- **存储成本**:持续增长的云账单
- **流程成本**:慢实验迭代、低质量特征
- **机会成本**:模型性能不提升甚至下降
## 与数据质量的关系
这与 [[data-quality-vs-quantity|数据数量 vs 数据质量]] 的噪声阈值效应直接相关——超过阈值后,更多低质量数据不仅无益,反而有害。
## 参考
- [[data-quality-vs-quantity|数据数量 vs 数据质量]]
- [[ml-technical-debt|ML 技术债务]]
- [[ai-production-tradeoffs|AI 生产权衡]]