Paper Digest: P/D-Serve

P/D-Serve: Serving Disaggregated Large Language Model at Scale

arXiv 2024

Authors: Y. Jin, ..., Jiandong Ding, et al.

💡 针对万亿级 LLM 服务中的算力与显存资源错配问题，设计了 P/D-Serve 分离式推理架构。通过将 Prefill（预填充）和 Decode（解码）阶段解耦部署，实现了集群级吞吐量的大幅跃升。

🚨 1. The Problem: 大模型推理的“木桶效应”

传统的 LLM 部署框架（如 vLLM, TGI）通常采用单体架构，即同一个模型实例同时处理请求的输入阶段和生成阶段。这在底层物理资源上造成了极大的冲突。

核心痛点：算力墙与显存墙的错配
Prefill 阶段（读题）是计算密集型的（Compute-bound），需要庞大的 GPU 算力来并发展开矩阵乘法；而 Decode 阶段（写字）是显存带宽密集型的（Memory-bound），受制于庞大且碎片化的 KV-Cache 搬运。混合部署会导致长上下文请求的 Prefill 严重阻塞其他请求的 Decode，导致 GPU 利用率低下和极高的首字延迟（TTFT）。

🚀 2. The Breakthrough: 分离式调度与高速路由

我们提出了 P/D-Serve (Prefill/Decode Disaggregated Serving) 架构：

集群级解耦部署: 将 GPU 物理集群划分为专用的“Prefill 池”和“Decode 池”。Prefill 节点专门负责高速吞吐计算，完成后将上下文状态瞬间转移给 Decode 节点负责逐字生成。
高效 KV-Cache 传输机制: 架构的核心难点在于网络开销。P/D-Serve 设计了一套高效的分布式 KV-Cache 路由与内存管理策略，掩盖了节点间传输状态的时间损耗，实现了跨节点的无缝接力。

📈 3. Key Results: 业务与实验价值

重塑大模型基建的经济学：
在大规模高并发测试中，P/D-Serve 彻底解除了计算与显存的互相掣肘。相较于传统单体架构，系统的整体吞吐量（QPS）显著翻倍，同时大幅压低了首字生成时间（TTFT）和字间延迟（TBT），为超大模型（如 100B+ 参数）的大规模商业化上线提供了系统级保障。

Jiandong Ding (丁建栋)