Files
myWiki/concepts/batch-vs-real-time-inference.md

1.5 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
批处理推理 vs 实时推理 2026-06-19 2026-06-19 concept
inference
deployment
batch-processing
real-time
latency
throughput
https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/

批处理推理 vs 实时推理

两种架构

批处理和实时推理是两种不同的系统架构。选择错误的选项会影响基础设施、成本和用户体验——这些选择难以逆转。

批处理推理 实时推理
生成方式 按时间表(每小时/每天) 按需,毫秒到秒
存储 预计算,存数据库 即时计算
成本 24/7 运行)
基础设施 简单,易调试 更多活动部件,难监控
数据新鲜度 可能过时 始终最新

系统层面的权衡

  • 更大的批处理 → 更高吞吐量,但每个请求延迟也更高
  • 实时系统使用 batch_size=1 → 速度快,但可能降低效率

最常见的错误

团队默认使用实时推理,因为听起来更令人印象深刻。 但大多数业务问题不需要亚秒级预测:

  • 每晚的流失率评分
  • 每周的推荐更新
  • 每天的欺诈模式更新

决策信号

如果你的用户不会注意到预测是 5 分钟前还是 5 毫秒前,用批处理推理。

参考