Files
myWiki/concepts/ml-technical-debt.md

50 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "ML 技术债务"
created: 2026-06-19
updated: 2026-06-19
type: concept
tags: [ml-engineering, technical-debt, production, system-design]
sources:
- https://arxiv.org/abs/1506.07756
- https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
---
# ML 技术债务
## 定义
机器学习系统中的隐性技术债务——来自 Sculley et al. (2015, NeurIPS) 的经典框架。与软件工程中熟知的代码债务不同ML 系统引入了独特且更昂贵的债务形式。
## 核心差异:数据债务 > 代码债务
Sculley 的核心发现:**数据依赖比代码依赖更昂贵**。原因:
- 数据更难追踪(无类型系统)
- 数据更难版本化数据漂移、schema 变更)
- 数据更难向 6 个月后继承系统的人解释
- 数据管线的变更可能静默地破坏下游模型
## ML 系统的真实构成
实际的模型代码只是真实 ML 系统的**一小部分**。大块是:
- 特征存储和数据管道
- 监控和告警
- 重训练触发器和调度
- 各组件之间的粘合代码
## CACE 效应
[[cace-principle|CACE 原理]]:改变任何事物都会改变一切。流水线上的一个小调整可能引发远处的惊人变化——这种级联效应在集成系统和神经网络中尤其严重。
## 实际成本
- 团队选择一个更复杂的模型来获得 2% 的准确性,为此支付 18 个月的调试时间和重训练开销
- "数据沼泽":无治理地收集所有数据 → 需要数周清理 → 增加存储和流程成本
- 自托管硬件仅占 20-30% 成本,人力占 70-80%
## 参考
- [[cace-principle|CACE 原理]]
- [[ai-production-tradeoffs|AI 生产权衡]]
- [[data-swamp|数据沼泽]]
- [[nobrega-ai-production-tradeoffs-2026|原文文章]]