P/D-Serve: Serving Disaggregated Large Language Model at Scale
arXiv 2024

Authors: Y. Jin, ..., Jiandong Ding, et al.
💡 针对万亿级 LLM 服务中的算力与显存资源错配问题,设计了 P/D-Serve 分离式推理架构。通过将 Prefill(预填充)和 Decode(解码)阶段解耦部署,实现了集群级吞吐量的大幅跃升。
🚨 1. The Problem: 大模型推理的“木桶效应”

传统的 LLM 部署框架(如 vLLM, TGI)通常采用单体架构,即同一个模型实例同时处理请求的输入阶段和生成阶段。这在底层物理资源上造成了极大的冲突。

核心痛点:算力墙与显存墙的错配
Prefill 阶段(读题)是计算密集型的(Compute-bound),需要庞大的 GPU 算力来并发展开矩阵乘法;而 Decode 阶段(写字)是显存带宽密集型的(Memory-bound),受制于庞大且碎片化的 KV-Cache 搬运。混合部署会导致长上下文请求的 Prefill 严重阻塞其他请求的 Decode,导致 GPU 利用率低下和极高的首字延迟(TTFT)。
🚀 2. The Breakthrough: 分离式调度与高速路由

我们提出了 P/D-Serve (Prefill/Decode Disaggregated Serving) 架构:

  • 集群级解耦部署: 将 GPU 物理集群划分为专用的“Prefill 池”和“Decode 池”。Prefill 节点专门负责高速吞吐计算,完成后将上下文状态瞬间转移给 Decode 节点负责逐字生成。
  • 高效 KV-Cache 传输机制: 架构的核心难点在于网络开销。P/D-Serve 设计了一套高效的分布式 KV-Cache 路由与内存管理策略,掩盖了节点间传输状态的时间损耗,实现了跨节点的无缝接力。
📈 3. Key Results: 业务与实验价值
重塑大模型基建的经济学:
在大规模高并发测试中,P/D-Serve 彻底解除了计算与显存的互相掣肘。相较于传统单体架构,系统的整体吞吐量(QPS)显著翻倍,同时大幅压低了首字生成时间(TTFT)和字间延迟(TBT),为超大模型(如 100B+ 参数)的大规模商业化上线提供了系统级保障。