title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| Prefill-Decode 分离架构 (PD Disaggregation) |
2026-04-19 |
2026-04-19 |
concept |
| inference |
| system-design |
| architecture |
|
| raw/papers/qin-prfaas-cross-datacenter-2026.md |
|
Prefill-Decode 分离架构 (PD Disaggregation)
定义
将 LLM 推理的两个主要阶段——Prefill(处理 prompt,计算密集型)和 Decode(自回归生成 token,内存密集型)——分离到不同的硬件或集群上执行,以优化资源利用率。
演进背景
- 同构部署:Prefill 和 Decode 在同一 GPU 上执行,资源利用率低
- PD 分离:将两者分离,分别优化计算和内存资源
- 跨数据中心 PD 分离:PrfaaS 架构进一步打破网络域限制,实现跨数据中心的资源弹性
核心挑战
- KVCache 传输成本:Dense-attention 模型产生巨大的 KVCache,需要高带宽低延迟网络(RDMA)
- 负载不均衡:Prefill 和 Decode 的峰值时间不同,但传统架构受限于网络拓扑
- 异构部署困难:不同代际或类型的加速器难以在同一网络域内协同
最新进展
- 混合注意力架构(如 Hyena、基于状态空间的模型)大幅减少 KVCache 大小
- PrfaaS (Qin et al., 2026):结合模型侧 KV 效率与系统侧选择性卸载,实现跨数据中心 PD 分离
- 商用以太网替代 RDMA:降低部署成本和复杂性
相关概念