1.8 KiB
1.8 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| ML 技术债务 | 2026-06-19 | 2026-06-19 | concept |
|
|
ML 技术债务
定义
机器学习系统中的隐性技术债务——来自 Sculley et al. (2015, NeurIPS) 的经典框架。与软件工程中熟知的代码债务不同,ML 系统引入了独特且更昂贵的债务形式。
核心差异:数据债务 > 代码债务
Sculley 的核心发现:数据依赖比代码依赖更昂贵。原因:
- 数据更难追踪(无类型系统)
- 数据更难版本化(数据漂移、schema 变更)
- 数据更难向 6 个月后继承系统的人解释
- 数据管线的变更可能静默地破坏下游模型
ML 系统的真实构成
实际的模型代码只是真实 ML 系统的一小部分。大块是:
- 特征存储和数据管道
- 监控和告警
- 重训练触发器和调度
- 各组件之间的粘合代码
CACE 效应
cace-principle:改变任何事物都会改变一切。流水线上的一个小调整可能引发远处的惊人变化——这种级联效应在集成系统和神经网络中尤其严重。
实际成本
- 团队选择一个更复杂的模型来获得 2% 的准确性,为此支付 18 个月的调试时间和重训练开销
- "数据沼泽":无治理地收集所有数据 → 需要数周清理 → 增加存储和流程成本
- 自托管硬件仅占 20-30% 成本,人力占 70-80%