20260625:很多新内容
This commit is contained in:
44
concepts/batch-vs-real-time-inference.md
Normal file
44
concepts/batch-vs-real-time-inference.md
Normal file
@@ -0,0 +1,44 @@
|
||||
---
|
||||
title: "批处理推理 vs 实时推理"
|
||||
created: 2026-06-19
|
||||
updated: 2026-06-19
|
||||
type: concept
|
||||
tags: [inference, deployment, batch-processing, real-time, latency, throughput]
|
||||
sources:
|
||||
- https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
|
||||
---
|
||||
|
||||
# 批处理推理 vs 实时推理
|
||||
|
||||
## 两种架构
|
||||
|
||||
批处理和实时推理是两种**不同的系统架构**。选择错误的选项会影响基础设施、成本和用户体验——这些选择难以逆转。
|
||||
|
||||
| | 批处理推理 | 实时推理 |
|
||||
|---|---|---|
|
||||
| **生成方式** | 按时间表(每小时/每天) | 按需,毫秒到秒 |
|
||||
| **存储** | 预计算,存数据库 | 即时计算 |
|
||||
| **成本** | 低 | 高(24/7 运行) |
|
||||
| **基础设施** | 简单,易调试 | 更多活动部件,难监控 |
|
||||
| **数据新鲜度** | 可能过时 | 始终最新 |
|
||||
|
||||
## 系统层面的权衡
|
||||
|
||||
- 更大的批处理 → 更高吞吐量,但每个请求延迟也更高
|
||||
- 实时系统使用 batch_size=1 → 速度快,但可能降低效率
|
||||
|
||||
## 最常见的错误
|
||||
|
||||
**团队默认使用实时推理,因为听起来更令人印象深刻。** 但大多数业务问题不需要亚秒级预测:
|
||||
- 每晚的流失率评分
|
||||
- 每周的推荐更新
|
||||
- 每天的欺诈模式更新
|
||||
|
||||
## 决策信号
|
||||
|
||||
> 如果你的用户不会注意到预测是 5 分钟前还是 5 毫秒前,用批处理推理。
|
||||
|
||||
## 参考
|
||||
|
||||
- [[ai-production-tradeoffs|AI 生产权衡]]
|
||||
- [[nobrega-ai-production-tradeoffs-2026|原文文章]]
|
||||
Reference in New Issue
Block a user