20260420:first commit
This commit is contained in:
38
papers/qin-prfaas-cross-datacenter.md
Normal file
38
papers/qin-prfaas-cross-datacenter.md
Normal file
@@ -0,0 +1,38 @@
|
||||
---
|
||||
title: "Prefill-as-a-Service: KVCache Goes Cross-Datacenter"
|
||||
created: 2026-04-19
|
||||
updated: 2026-04-19
|
||||
type: paper
|
||||
tags: [inference, architecture, system-design, llm]
|
||||
sources: [raw/papers/qin-prfaas-cross-datacenter-2026.md]
|
||||
---
|
||||
|
||||
# Prefill-as-a-Service: KVCache Goes Cross-Datacenter
|
||||
|
||||
**arXiv:** 2604.15039 [cs.DC] · 2026-04-16
|
||||
**作者:** Ruoyu Qin, Weiran He, Yaoyu Wang, Zheming Li, Xinran Xu, Yongwei Wu, Weimin Zheng, Mingxing Zhang
|
||||
|
||||
## 核心贡献
|
||||
|
||||
提出 **Prefill-as-a-Service (PrfaaS)**,一种跨数据中心的 LLM 服务架构。通过选择性地将长上下文 prefill 卸载到独立的计算密集型集群,并通过商用以太网将 KVCache 传输到本地 PD 集群进行 decode,实现了 prefill 和 decode 容量的独立扩展。
|
||||
|
||||
## 关键发现
|
||||
|
||||
- **传统 PD 分离的局限**:dense-attention 模型产生巨大的 KVCache 流量,迫使 prefill 和 decode 紧耦合在同一高带宽网络域内
|
||||
- **混合注意力架构的机遇**:大幅减少 KVCache 大小,使跨集群 KVCache 传输变得可行
|
||||
- **仅减少 KVCache 不足**:真实负载突发、请求长度高度偏斜、前缀缓存分布不均、跨集群带宽波动
|
||||
- **PrfaaS 设计**:
|
||||
- 选择性卸载长上下文 prefill 到独立集群
|
||||
- 通过商用以太网传输 KVCache
|
||||
- 结合模型侧 KV 效率与系统侧选择性卸载、带宽感知调度和缓存感知请求放置
|
||||
- 消除对低延迟 RDMA fabric 的依赖
|
||||
- **性能提升**(基于内部 1T 参数混合模型的案例研究):
|
||||
- 比同构 PD 部署吞吐量提高 **54%**
|
||||
- 比朴素异构基线吞吐量提高 **32%**
|
||||
- 仅消耗适度的跨数据中心带宽
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[prefill-as-a-service]] — PrfaaS 架构详解
|
||||
- [[prefill-decode-disaggregation]] — PD 分离架构演进
|
||||
- [[kvcache-transfer]] — KVCache 传输与优化
|
||||
Reference in New Issue
Block a user