SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Prefill-Decode 分离架构 (PD Disaggregation)

2026-04-19

2026-04-19

concept

inference

system-design

architecture

raw/papers/qin-prfaas-cross-datacenter-2026.md

Prefill-Decode 分离架构 (PD Disaggregation)

定义

将 LLM 推理的两个主要阶段——Prefill（处理 prompt，计算密集型）和 Decode（自回归生成 token，内存密集型）——分离到不同的硬件或集群上执行，以优化资源利用率。

演进背景

同构部署：Prefill 和 Decode 在同一 GPU 上执行，资源利用率低
PD 分离：将两者分离，分别优化计算和内存资源
跨数据中心 PD 分离：PrfaaS 架构进一步打破网络域限制，实现跨数据中心的资源弹性

核心挑战

KVCache 传输成本：Dense-attention 模型产生巨大的 KVCache，需要高带宽低延迟网络（RDMA）
负载不均衡：Prefill 和 Decode 的峰值时间不同，但传统架构受限于网络拓扑
异构部署困难：不同代际或类型的加速器难以在同一网络域内协同

最新进展

混合注意力架构（如 Hyena、基于状态空间的模型）大幅减少 KVCache 大小
PrfaaS (Qin et al., 2026)：结合模型侧 KV 效率与系统侧选择性卸载，实现跨数据中心 PD 分离
商用以太网替代 RDMA：降低部署成本和复杂性

相关概念

prefill-as-a-service — PrfaaS 架构
kvcache-transfer — KVCache 传输优化
hybrid-attention-architecture — 混合注意力架构