39 lines
1.6 KiB
Markdown
39 lines
1.6 KiB
Markdown
---
|
||
title: "Prefill-Decode 分离架构 (PD Disaggregation)"
|
||
created: 2026-04-19
|
||
updated: 2026-04-19
|
||
type: concept
|
||
tags: [inference, system-design, architecture]
|
||
sources: [raw/papers/qin-prfaas-cross-datacenter-2026.md]
|
||
---
|
||
|
||
# Prefill-Decode 分离架构 (PD Disaggregation)
|
||
|
||
## 定义
|
||
|
||
将 LLM 推理的两个主要阶段——**Prefill**(处理 prompt,计算密集型)和 **Decode**(自回归生成 token,内存密集型)——分离到不同的硬件或集群上执行,以优化资源利用率。
|
||
|
||
## 演进背景
|
||
|
||
1. **同构部署**:Prefill 和 Decode 在同一 GPU 上执行,资源利用率低
|
||
2. **PD 分离**:将两者分离,分别优化计算和内存资源
|
||
3. **跨数据中心 PD 分离**:PrfaaS 架构进一步打破网络域限制,实现跨数据中心的资源弹性
|
||
|
||
## 核心挑战
|
||
|
||
- **KVCache 传输成本**:Dense-attention 模型产生巨大的 KVCache,需要高带宽低延迟网络(RDMA)
|
||
- **负载不均衡**:Prefill 和 Decode 的峰值时间不同,但传统架构受限于网络拓扑
|
||
- **异构部署困难**:不同代际或类型的加速器难以在同一网络域内协同
|
||
|
||
## 最新进展
|
||
|
||
- **混合注意力架构**(如 Hyena、基于状态空间的模型)大幅减少 KVCache 大小
|
||
- **PrfaaS** (Qin et al., 2026):结合模型侧 KV 效率与系统侧选择性卸载,实现跨数据中心 PD 分离
|
||
- **商用以太网替代 RDMA**:降低部署成本和复杂性
|
||
|
||
## 相关概念
|
||
|
||
- [[prefill-as-a-service]] — PrfaaS 架构
|
||
- [[kvcache-transfer]] — KVCache 传输优化
|
||
- [[hybrid-attention-architecture]] — 混合注意力架构
|