Files
myWiki/concepts/ml-technical-debt.md

1.8 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
ML 技术债务 2026-06-19 2026-06-19 concept
ml-engineering
technical-debt
production
system-design
https://arxiv.org/abs/1506.07756
https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/

ML 技术债务

定义

机器学习系统中的隐性技术债务——来自 Sculley et al. (2015, NeurIPS) 的经典框架。与软件工程中熟知的代码债务不同ML 系统引入了独特且更昂贵的债务形式。

核心差异:数据债务 > 代码债务

Sculley 的核心发现:数据依赖比代码依赖更昂贵。原因:

  • 数据更难追踪(无类型系统)
  • 数据更难版本化数据漂移、schema 变更)
  • 数据更难向 6 个月后继承系统的人解释
  • 数据管线的变更可能静默地破坏下游模型

ML 系统的真实构成

实际的模型代码只是真实 ML 系统的一小部分。大块是:

  • 特征存储和数据管道
  • 监控和告警
  • 重训练触发器和调度
  • 各组件之间的粘合代码

CACE 效应

cace-principle:改变任何事物都会改变一切。流水线上的一个小调整可能引发远处的惊人变化——这种级联效应在集成系统和神经网络中尤其严重。

实际成本

  • 团队选择一个更复杂的模型来获得 2% 的准确性,为此支付 18 个月的调试时间和重训练开销
  • "数据沼泽":无治理地收集所有数据 → 需要数周清理 → 增加存储和流程成本
  • 自托管硬件仅占 20-30% 成本,人力占 70-80%

参考