20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/articles/nobrega-ai-production-tradeoffs-2026.md
+++ b/articles/nobrega-ai-production-tradeoffs-2026.md
@@ -0,0 +1,52 @@
+---
+title: "AI 工程师的 6 种生产权衡"
+created: 2026-06-19
+updated: 2026-06-19
+type: article
+tags: [ai-engineering, production-tradeoffs, prompt-engineering, fine-tuning, hitl, mlops]
+sources:
+  - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
+  - https://mp.weixin.qq.com/s/GESoyR0qpxP4fPtHZjonKA
+---
+
+# AI 工程师的 6 种生产权衡
+
+> 原文：*Six Choices Every AI Engineer Has to Make (and Nobody Teaches)* — Sara Nobrega
+> 翻译：陈超 | 来源：数据派THU
+
+## 核心问题
+
+大学课程教你怎么让模型变精确。但几乎没人教你后续的决策：什么时候完全自动化？什么时候提示词不够？批处理和实时怎么选？这些问题在工作第一周就会出现。
+
+## 核心原则
+
+> **决策的成本很少在决策做出的地方产生回报。** — 更复杂的模型在 6 个月后增加维护成本，实时系统需要 24/7 基础设施支撑，大规模脏数据在重训练周期上付出代价。
+
+## 6 种权衡
+
+### 1. [[build-vs-buy-llm|构建 vs 购买]]
+日请求 < 10 万 → API。日请求 > 100 万 → 自建。但 70-80% 的自建成本是人力，不是 GPU。团队平均超预算 340%。
+
+### 2. [[cace-principle|模型复杂度 vs 可维护性]]
+CACE 原理：改变任何事物都会改变一切。为 2% 精度选复杂模型的代价是 18 个月的调试税。一年后谁拥有它？
+
+### 3. [[data-quality-vs-quantity|数据数量 vs 数据质量]]
+超过噪声阈值，更多数据会降低性能。医疗 AI 最典型：专家标注小数据集 > 不可靠标注大数据集。避免"数据沼泽"。
+
+### 4. [[batch-vs-real-time-inference|吞吐量 vs 延迟]]
+大多数业务问题不需要亚秒级预测。如果用户不会注意到预测是 5 分钟前还是 5 毫秒前，用批处理。
+
+### 5. [[prompt-engineering-vs-fine-tuning|提示词工程 vs 微调]]
+提示词快、便宜、灵活，但脆弱。微调昂贵（$1 万 + 6 周），但规模化可靠。混合模式（微调风格 + RAG 事实）日益普及。
+
+### 6. [[human-in-the-loop|自动化 vs 人类监督]]
+完全人工审查无法规模化。选择性 HITL：边缘案例、低置信度、高风险决策才触发人工。AI 处理规模，人类处理不可逆性。
+
+## 关键概念网络
+
+- [[ai-production-tradeoffs|AI 生产权衡]] — 六大维度的总览
+- [[ml-technical-debt|ML 技术债务]] — 数据依赖比代码依赖更昂贵
+- [[selective-hitl|选择性 HITL]] — 只有在最需要时引入人工
+- [[data-swamp|数据沼泽]] — 存储便宜带来的隐性成本
+
+来源：[原始存档](raw/articles/nobrega-ai-production-tradeoffs-2026.md)