20260420:first commit

2026-04-20 11:42:41 +08:00
commit dd8345a6ea
45 changed files with 2366 additions and 0 deletions
--- a/concepts/prefill-decode-disaggregation.md
+++ b/concepts/prefill-decode-disaggregation.md
@@ -0,0 +1,38 @@
+---
+title: "Prefill-Decode 分离架构 (PD Disaggregation)"
+created: 2026-04-19
+updated: 2026-04-19
+type: concept
+tags: [inference, system-design, architecture]
+sources: [raw/papers/qin-prfaas-cross-datacenter-2026.md]
+---
+
+# Prefill-Decode 分离架构 (PD Disaggregation)
+
+## 定义
+
+将 LLM 推理的两个主要阶段——**Prefill**（处理 prompt，计算密集型）和 **Decode**（自回归生成 token，内存密集型）——分离到不同的硬件或集群上执行，以优化资源利用率。
+
+## 演进背景
+
+1. **同构部署**：Prefill 和 Decode 在同一 GPU 上执行，资源利用率低
+2. **PD 分离**：将两者分离，分别优化计算和内存资源
+3. **跨数据中心 PD 分离**：PrfaaS 架构进一步打破网络域限制，实现跨数据中心的资源弹性
+
+## 核心挑战
+
+- **KVCache 传输成本**：Dense-attention 模型产生巨大的 KVCache，需要高带宽低延迟网络（RDMA）
+- **负载不均衡**：Prefill 和 Decode 的峰值时间不同，但传统架构受限于网络拓扑
+- **异构部署困难**：不同代际或类型的加速器难以在同一网络域内协同
+
+## 最新进展
+
+- **混合注意力架构**（如 Hyena、基于状态空间的模型）大幅减少 KVCache 大小
+- **PrfaaS** (Qin et al., 2026)：结合模型侧 KV 效率与系统侧选择性卸载，实现跨数据中心 PD 分离
+- **商用以太网替代 RDMA**：降低部署成本和复杂性
+
+## 相关概念
+
+- [[prefill-as-a-service]] — PrfaaS 架构
+- [[kvcache-transfer]] — KVCache 传输优化
+- [[hybrid-attention-models]] — 混合注意力架构