大家好,我是Ai學習的老章
近年來,隨著大語言模型(LLM)的快速發展,如何高效部署和優化這些模型以滿足高吞吐量、低成本的需求成為行業熱點。
5月5日,LMSYS Org 在 X 平臺發布了一則令人振奮的消息:SGLang 提供了首個開源實現,用于在 96 個 GPU 上服務 DeepSeek V3/R1 模型,通過預填充-解碼分離(prefill-decode disaggregation)和大規模專家并行(expert parallelism, EP)技術,實現了驚艷的性能提升和成本優化。本文將詳細解析這一突破性進展,并結合相關圖表進行直觀展示。
SGLang 的開源實現:性能接近官方數據
LMSYS Org 宣布,SGLang 成功實現了 DeepSeek V3/R1 模型的高效服務,其核心在于利用預填充-解碼分離和專家并行技術,在 96 個 GPU 的集群上運行。具體而言,這一實現取得了以下性能:
輸入吞吐量:每節點每秒 52.3K 輸入 token;
輸出吞吐量:每節點每秒 22.3K 輸出 token。
這一數據幾乎與 DeepSeek 官方博客報告的吞吐量相當,顯示出 SGLang 優化的強大潛力。更令人印象深刻的是,與傳統的張量并行(tensor parallelism)相比,SGLang 的優化策略將輸出吞吐量提升了高達 5 倍。
以下是 LMSYS Org 提供的性能對比圖表,直觀展示了不同并行策略下的吞吐量表現:
吞吐量對比圖
圖1:輸入和輸出吞吐量對比
左圖展示了輸入 token 吞吐量(Input Tokens Per Second),對比了不同并行策略(如 TP、EP2、TP16 等)在 1K、2K 和 4K 輸入長度下的表現。綠色柱(DeepSeek, Profiled)表示 SGLang 的優化結果,明顯優于其他策略。
右圖展示了輸出 token 吞吐量(Output Tokens Per Second),在不同輸出長度(0%、15%、100%)下,SGLang 的性能依然領先,尤其是結合 EP 和 TP 的混合策略(橙色柱)。
預填充-解碼分離與專家并行:技術核心解析
SGLang 的成功離不開兩大關鍵技術:預填充-解碼分離和專家并行。以下是對這兩項技術的簡要解析:
預填充-解碼分離(Prefill-Decode Disaggregation)
預填充(prefill)和解碼(decode)是大語言模型推理的兩個主要階段。預填充階段需要快速處理輸入 token 以生成初始上下文,而解碼階段則逐個生成輸出 token。傳統的并行策略(如張量并行)通常將兩者綁定在同一組 GPU 上,但這往往無法同時滿足兩階段的不同性能需求。
SGLang 的解決方案是將預填充和解碼階段分離到不同的 GPU 組,并為每個階段定制并行策略。例如:
預填充階段更適合使用張量并行(TP),以滿足低延遲需求(如聊天機器人要求首次響應時間低于 0.2 秒)。
解碼階段則更適合數據或流水線并行,以提升吞吐量,匹配人類閱讀速度。
LMSYS Org 提供了以下架構圖,展示了這一分離策略的具體實現:
預填充-解碼分離架構
圖2:預填充-解碼分離架構
圖中展示了 12 個節點(每節點 8 個 H100 GPU)的部署方式。預填充工作節點(Prefill Workers)負責初始上下文生成,解碼工作節點(Decode Workers)則專注于生成輸出 token。
通過 KV Cache 傳輸,兩個階段高效協作,大幅提升了整體性能。
專家并行(Expert Parallelism, EP)及優化技術
DeepSeek V3/R1 模型采用了混合專家(MoE)架構,這種架構通過將計算任務分配給多個“專家”來提升性能,但也帶來了負載不均衡和通信開銷的挑戰。SGLang 引入了專家并行(EP)并結合多項優化技術來解決這些問題:
DeepEP:專為 MoE 架構設計的通信庫,支持高效的“all-to-all”通信模式,在 NVLink 和 RDMA 上實現了接近理論峰值的性能(分別達到 158 GB/s 和 47 GB/s)。
EPLB(Expert Parallel Load Balancing):解決專家負載不均衡問題,確保計算資源的高效利用。
Two-Batch Overlap:通過雙批次重疊隱藏通信開銷,進一步提升吞吐量。
DeepGemm:優化了 FP8 精度的矩陣乘法運算(GEMM),顯著提升計算效率。
以下圖表展示了雙批次重疊的效果:
雙批次重疊效果
圖3:雙批次重疊優化
上圖展示了無序調度下的資源浪費(Wasted MLP)。
下圖展示了通過雙批次重疊實現的計算與通信重疊,顯著提升了效率。
成本優化:每百萬 token 僅 0.20 美元
除了性能提升,SGLang 的實現還大幅降低了運行成本。通過在 Atlas Cloud 上部署 12 個節點(每節點 8 個 H100 GPU),SGLang 將輸出 token 的成本降至 每百萬 token 0.20 美元,僅為 DeepSeek 官方 Chat API 成本的 五分之一。
這一成本優勢得益于本地化部署和高效的資源利用。相比之下,DeepSeek 官方 API 的高成本可能源于云端基礎設施的運營費用,而 SGLang 的開源實現允許用戶直接在本地集群上運行模型,極大降低了依賴外部服務的開銷。
這一成果是多個機構開源協作的典范,LMSYS Org 在帖子中特別感謝了 NVIDIA、LinkedIn 和 Kimi_Moonshot 等合作伙伴的貢獻。同時,他們呼吁社區進一步探索、復制和擴展這項工作,共同推動高效 AI 部署的邊界。
此外,AMD 也在 2025 年 4 月宣布,其 Instinct? GPU 已通過 SGLang 優化支持 DeepSeek V3 模型,進一步擴展了這一技術的影響力。未來,隨著 DeepSeek R2 等新模型的推出,SGLang 的優化策略有望在更廣泛的場景中得到應用。
總結
SGLang 的開源實現通過預填充-解碼分離和專家并行技術,為 DeepSeek V3/R1 模型的部署帶來了性能和成本的雙重突破。其吞吐量接近官方數據,輸出性能提升高達 5 倍,同時將成本降低至每百萬 token 0.20 美元。結合直觀的圖表(如吞吐量對比、架構圖和優化效果圖),我們可以看到這一技術如何在實際場景中高效運行。
對于 AI 從業者和研究者來說,SGLang 的開源代碼和詳細博客(鏈接[1])提供了寶貴的參考,值得深入探索和實踐。這一成果不僅展示了開源社區的強大力量,也為大語言模型的高效部署樹立了新的標桿。
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
參考資料
鏈接: https://t.co/D5J9n2LdZ5
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.