Files
myWiki/papers/qin-prfaas-cross-datacenter.md
2026-04-20 11:42:41 +08:00

1.8 KiB
Raw Permalink Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Prefill-as-a-Service: KVCache Goes Cross-Datacenter 2026-04-19 2026-04-19 paper
inference
architecture
system-design
llm
raw/papers/qin-prfaas-cross-datacenter-2026.md

Prefill-as-a-Service: KVCache Goes Cross-Datacenter

arXiv: 2604.15039 [cs.DC] · 2026-04-16 作者: Ruoyu Qin, Weiran He, Yaoyu Wang, Zheming Li, Xinran Xu, Yongwei Wu, Weimin Zheng, Mingxing Zhang

核心贡献

提出 Prefill-as-a-Service (PrfaaS),一种跨数据中心的 LLM 服务架构。通过选择性地将长上下文 prefill 卸载到独立的计算密集型集群,并通过商用以太网将 KVCache 传输到本地 PD 集群进行 decode实现了 prefill 和 decode 容量的独立扩展。

关键发现

  • 传统 PD 分离的局限dense-attention 模型产生巨大的 KVCache 流量,迫使 prefill 和 decode 紧耦合在同一高带宽网络域内
  • 混合注意力架构的机遇:大幅减少 KVCache 大小,使跨集群 KVCache 传输变得可行
  • 仅减少 KVCache 不足:真实负载突发、请求长度高度偏斜、前缀缓存分布不均、跨集群带宽波动
  • PrfaaS 设计
    • 选择性卸载长上下文 prefill 到独立集群
    • 通过商用以太网传输 KVCache
    • 结合模型侧 KV 效率与系统侧选择性卸载、带宽感知调度和缓存感知请求放置
    • 消除对低延迟 RDMA fabric 的依赖
  • 性能提升(基于内部 1T 参数混合模型的案例研究):
    • 比同构 PD 部署吞吐量提高 54%
    • 比朴素异构基线吞吐量提高 32%
    • 仅消耗适度的跨数据中心带宽

相关概念