20260625:很多新内容

This commit is contained in:
2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions

38
concepts/data-swamp.md Normal file
View File

@@ -0,0 +1,38 @@
---
title: "数据沼泽 — Data Swamp"
created: 2026-06-19
updated: 2026-06-19
type: concept
tags: [data-engineering, data-quality, data-governance, ml-engineering]
sources:
- https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
---
# 数据沼泽Data Swamp
## 定义
**数据沼泽**是企业在无数据治理情况下的典型困境:因为存储便宜而收集所有数据,认为"总有一天会有用",但最终得到一个需要数周清理、增加成本、减慢实验却不改善结果的数据池。
## 成因
- 存储成本持续下降 → "先存着再说"的心态
- 缺少数据治理框架和生命周期管理
- 缺乏与下游 ML 任务的成本关联
## 代价
- **清理成本**:数周时间的工程投入
- **存储成本**:持续增长的云账单
- **流程成本**:慢实验迭代、低质量特征
- **机会成本**:模型性能不提升甚至下降
## 与数据质量的关系
这与 [[data-quality-vs-quantity|数据数量 vs 数据质量]] 的噪声阈值效应直接相关——超过阈值后,更多低质量数据不仅无益,反而有害。
## 参考
- [[data-quality-vs-quantity|数据数量 vs 数据质量]]
- [[ml-technical-debt|ML 技术债务]]
- [[ai-production-tradeoffs|AI 生产权衡]]