20260625:很多新内容

This commit is contained in:
2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions

View File

@@ -0,0 +1,62 @@
---
title: "Six Choices Every AI Engineer Has to Make (and Nobody Teaches)"
created: 2026-06-19
updated: 2026-06-19
type: article-raw
source: https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
wechat: https://mp.weixin.qq.com/s/GESoyR0qpxP4fPtHZjonKA
translator: 陈超
publisher: 数据派THU
---
# Six Choices Every AI Engineer Has to Make (and Nobody Teaches)
**作者**Sara Nobrega
**翻译**:陈超(北京大学应用心理硕士)
**发布**数据派THUDatapiTHU
**原文**Towards Data Science
## 核心主题
AI 生产中 6 种关键权衡,都有最新研究支持。
## 6 种权衡
### 1. 构建 vs 购买Build vs Buy
- 三个选择:调用 API、微调开源模型、自建托管
- 日请求 < 10 APIGPT-4o Mini
- 日请求 > 100 万 → 自建(但注意:人力占成本的 70-80%GPU 只占 20-30%
- 团队平均超出 LLM 预算 340%,主因是缺少使用跟踪和成本归属
### 2. 模型复杂度 vs 可维护性
- CACE 原理Change Anything Changes Everything (Sculley et al., 2015)
- 数据依赖比代码依赖更昂贵
- 为 2% 精度提升选择更复杂模型 → 支付 18 个月调试税
### 3. 数据数量 vs 数据质量
- 超过噪声阈值,更多低质量数据会降低性能
- "数据沼泽"问题:存储便宜 → 什么都存 → 清理成本爆炸
- 医疗 AI专家标注小数据集 > 不可靠标注大数据集
### 4. 吞吐量 vs 延迟(批处理 vs 实时)
- 批处理:按时生成预测,低成本,简单,预测可能过时
- 实时按需毫秒级昂贵24/7 运维
- 大多数业务问题不需要亚秒级预测
### 5. 提示词工程 vs 微调
- 提示词工程:快、便宜、灵活,但脆弱
- 微调昂贵GPT-4o 客户支持约 $1万 + 6 周),但规模化可靠
- DSPy 提示优化在部分基准上超微调 6-19 个百分点
- 混合模式兴起:微调解决风格/基调 + RAG 作事实基础
### 6. 自动化 vs 人类监督HITL
- 完全人工审查无法规模化
- 选择性 HITL只在边缘案例、低置信度、高风险决策时触发人工
- AI 处理规模/速度/模式识别,人类处理不可逆性
- 医疗/金融/法律领域HITL 通常是合规要求
## 核心原则
> 在生产中,决策的成本很少在决策做出的地方产生回报。
复杂度的代价延迟偿付——更复杂的模型在 6 个月后增加维护成本,实时系统的 24/7 基础设施支撑长期代价更高,大规模脏数据在重训练周期上付出代价。