網易首頁 > 網易號 > 正文申請入駐

SGLang放大招，DeepSeek V3、R1 部署性能和成本雙重突破

2025-05-06 11:39:37　來源: 機器學習與Python社區

北京舉報

分享至

大家好，我是Ai學習的老章

近年來，隨著大語言模型（LLM）的快速發展，如何高效部署和優化這些模型以滿足高吞吐量、低成本的需求成為行業熱點。

5月5日，LMSYS Org 在 X 平臺發布了一則令人振奮的消息：SGLang 提供了首個開源實現，用于在 96 個 GPU 上服務 DeepSeek V3/R1 模型，通過預填充-解碼分離（prefill-decode disaggregation）和大規模專家并行（expert parallelism, EP）技術，實現了驚艷的性能提升和成本優化。本文將詳細解析這一突破性進展，并結合相關圖表進行直觀展示。

SGLang 的開源實現：性能接近官方數據

LMSYS Org 宣布，SGLang 成功實現了 DeepSeek V3/R1 模型的高效服務，其核心在于利用預填充-解碼分離和專家并行技術，在 96 個 GPU 的集群上運行。具體而言，這一實現取得了以下性能：

輸入吞吐量：每節點每秒 52.3K 輸入 token；
輸出吞吐量：每節點每秒 22.3K 輸出 token。

這一數據幾乎與 DeepSeek 官方博客報告的吞吐量相當，顯示出 SGLang 優化的強大潛力。更令人印象深刻的是，與傳統的張量并行（tensor parallelism）相比，SGLang 的優化策略將輸出吞吐量提升了高達 5 倍。

以下是 LMSYS Org 提供的性能對比圖表，直觀展示了不同并行策略下的吞吐量表現：

吞吐量對比圖
圖1：輸入和輸出吞吐量對比

左圖展示了輸入 token 吞吐量（Input Tokens Per Second），對比了不同并行策略（如 TP、EP2、TP16 等）在 1K、2K 和 4K 輸入長度下的表現。綠色柱（DeepSeek, Profiled）表示 SGLang 的優化結果，明顯優于其他策略。
右圖展示了輸出 token 吞吐量（Output Tokens Per Second），在不同輸出長度（0%、15%、100%）下，SGLang 的性能依然領先，尤其是結合 EP 和 TP 的混合策略（橙色柱）。

預填充-解碼分離與專家并行：技術核心解析

SGLang 的成功離不開兩大關鍵技術：預填充-解碼分離和專家并行。以下是對這兩項技術的簡要解析：

預填充-解碼分離（Prefill-Decode Disaggregation）

預填充（prefill）和解碼（decode）是大語言模型推理的兩個主要階段。預填充階段需要快速處理輸入 token 以生成初始上下文，而解碼階段則逐個生成輸出 token。傳統的并行策略（如張量并行）通常將兩者綁定在同一組 GPU 上，但這往往無法同時滿足兩階段的不同性能需求。

SGLang 的解決方案是將預填充和解碼階段分離到不同的 GPU 組，并為每個階段定制并行策略。例如：

預填充階段更適合使用張量并行（TP），以滿足低延遲需求（如聊天機器人要求首次響應時間低于 0.2 秒）。
解碼階段則更適合數據或流水線并行，以提升吞吐量，匹配人類閱讀速度。

LMSYS Org 提供了以下架構圖，展示了這一分離策略的具體實現：

預填充-解碼分離架構

圖2：預填充-解碼分離架構

圖中展示了 12 個節點（每節點 8 個 H100 GPU）的部署方式。預填充工作節點（Prefill Workers）負責初始上下文生成，解碼工作節點（Decode Workers）則專注于生成輸出 token。
通過 KV Cache 傳輸，兩個階段高效協作，大幅提升了整體性能。

專家并行（Expert Parallelism, EP）及優化技術

DeepSeek V3/R1 模型采用了混合專家（MoE）架構，這種架構通過將計算任務分配給多個“專家”來提升性能，但也帶來了負載不均衡和通信開銷的挑戰。SGLang 引入了專家并行（EP）并結合多項優化技術來解決這些問題：

DeepEP：專為 MoE 架構設計的通信庫，支持高效的“all-to-all”通信模式，在 NVLink 和 RDMA 上實現了接近理論峰值的性能（分別達到 158 GB/s 和 47 GB/s）。
EPLB（Expert Parallel Load Balancing）：解決專家負載不均衡問題，確保計算資源的高效利用。
Two-Batch Overlap：通過雙批次重疊隱藏通信開銷，進一步提升吞吐量。
DeepGemm：優化了 FP8 精度的矩陣乘法運算（GEMM），顯著提升計算效率。

以下圖表展示了雙批次重疊的效果：

雙批次重疊效果

圖3：雙批次重疊優化

上圖展示了無序調度下的資源浪費（Wasted MLP）。
下圖展示了通過雙批次重疊實現的計算與通信重疊，顯著提升了效率。

成本優化：每百萬 token 僅 0.20 美元

除了性能提升，SGLang 的實現還大幅降低了運行成本。通過在 Atlas Cloud 上部署 12 個節點（每節點 8 個 H100 GPU），SGLang 將輸出 token 的成本降至每百萬 token 0.20 美元，僅為 DeepSeek 官方 Chat API 成本的五分之一。

這一成本優勢得益于本地化部署和高效的資源利用。相比之下，DeepSeek 官方 API 的高成本可能源于云端基礎設施的運營費用，而 SGLang 的開源實現允許用戶直接在本地集群上運行模型，極大降低了依賴外部服務的開銷。

這一成果是多個機構開源協作的典范，LMSYS Org 在帖子中特別感謝了 NVIDIA、LinkedIn 和 Kimi_Moonshot 等合作伙伴的貢獻。同時，他們呼吁社區進一步探索、復制和擴展這項工作，共同推動高效 AI 部署的邊界。

此外，AMD 也在 2025 年 4 月宣布，其 Instinct? GPU 已通過 SGLang 優化支持 DeepSeek V3 模型，進一步擴展了這一技術的影響力。未來，隨著 DeepSeek R2 等新模型的推出，SGLang 的優化策略有望在更廣泛的場景中得到應用。

總結

SGLang 的開源實現通過預填充-解碼分離和專家并行技術，為 DeepSeek V3/R1 模型的部署帶來了性能和成本的雙重突破。其吞吐量接近官方數據，輸出性能提升高達 5 倍，同時將成本降低至每百萬 token 0.20 美元。結合直觀的圖表（如吞吐量對比、架構圖和優化效果圖），我們可以看到這一技術如何在實際場景中高效運行。

對于 AI 從業者和研究者來說，SGLang 的開源代碼和詳細博客（鏈接[1]）提供了寶貴的參考，值得深入探索和實踐。這一成果不僅展示了開源社區的強大力量，也為大語言模型的高效部署樹立了新的標桿。

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

參考資料

鏈接: https://t.co/D5J9n2LdZ5

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.