Files
myWiki/papers/qin-prfaas-cross-datacenter.md
2026-04-20 11:42:41 +08:00

39 lines
1.8 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Prefill-as-a-Service: KVCache Goes Cross-Datacenter"
created: 2026-04-19
updated: 2026-04-19
type: paper
tags: [inference, architecture, system-design, llm]
sources: [raw/papers/qin-prfaas-cross-datacenter-2026.md]
---
# Prefill-as-a-Service: KVCache Goes Cross-Datacenter
**arXiv:** 2604.15039 [cs.DC] · 2026-04-16
**作者:** Ruoyu Qin, Weiran He, Yaoyu Wang, Zheming Li, Xinran Xu, Yongwei Wu, Weimin Zheng, Mingxing Zhang
## 核心贡献
提出 **Prefill-as-a-Service (PrfaaS)**,一种跨数据中心的 LLM 服务架构。通过选择性地将长上下文 prefill 卸载到独立的计算密集型集群,并通过商用以太网将 KVCache 传输到本地 PD 集群进行 decode实现了 prefill 和 decode 容量的独立扩展。
## 关键发现
- **传统 PD 分离的局限**dense-attention 模型产生巨大的 KVCache 流量,迫使 prefill 和 decode 紧耦合在同一高带宽网络域内
- **混合注意力架构的机遇**:大幅减少 KVCache 大小,使跨集群 KVCache 传输变得可行
- **仅减少 KVCache 不足**:真实负载突发、请求长度高度偏斜、前缀缓存分布不均、跨集群带宽波动
- **PrfaaS 设计**
- 选择性卸载长上下文 prefill 到独立集群
- 通过商用以太网传输 KVCache
- 结合模型侧 KV 效率与系统侧选择性卸载、带宽感知调度和缓存感知请求放置
- 消除对低延迟 RDMA fabric 的依赖
- **性能提升**(基于内部 1T 参数混合模型的案例研究):
- 比同构 PD 部署吞吐量提高 **54%**
- 比朴素异构基线吞吐量提高 **32%**
- 仅消耗适度的跨数据中心带宽
## 相关概念
- [[prefill-as-a-service]] — PrfaaS 架构详解
- [[prefill-decode-disaggregation]] — PD 分离架构演进
- [[kvcache-transfer]] — KVCache 传输与优化