99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

SGLang放大招,DeepSeek V3、R1 部署性能和成本雙重突破

0
分享至


大家好,我是Ai學習的老章

近年來,隨著大語言模型(LLM)的快速發展,如何高效部署和優化這些模型以滿足高吞吐量、低成本的需求成為行業熱點。

5月5日,LMSYS Org 在 X 平臺發布了一則令人振奮的消息:SGLang 提供了首個開源實現,用于在 96 個 GPU 上服務 DeepSeek V3/R1 模型,通過預填充-解碼分離(prefill-decode disaggregation)和大規模專家并行(expert parallelism, EP)技術,實現了驚艷的性能提升和成本優化。本文將詳細解析這一突破性進展,并結合相關圖表進行直觀展示。

SGLang 的開源實現:性能接近官方數據

LMSYS Org 宣布,SGLang 成功實現了 DeepSeek V3/R1 模型的高效服務,其核心在于利用預填充-解碼分離和專家并行技術,在 96 個 GPU 的集群上運行。具體而言,這一實現取得了以下性能:

  • 輸入吞吐量:每節點每秒 52.3K 輸入 token;

  • 輸出吞吐量:每節點每秒 22.3K 輸出 token。

這一數據幾乎與 DeepSeek 官方博客報告的吞吐量相當,顯示出 SGLang 優化的強大潛力。更令人印象深刻的是,與傳統的張量并行(tensor parallelism)相比,SGLang 的優化策略將輸出吞吐量提升了高達 5 倍。

以下是 LMSYS Org 提供的性能對比圖表,直觀展示了不同并行策略下的吞吐量表現:

吞吐量對比圖
圖1:輸入和輸出吞吐量對比

  • 左圖展示了輸入 token 吞吐量(Input Tokens Per Second),對比了不同并行策略(如 TP、EP2、TP16 等)在 1K、2K 和 4K 輸入長度下的表現。綠色柱(DeepSeek, Profiled)表示 SGLang 的優化結果,明顯優于其他策略。

  • 右圖展示了輸出 token 吞吐量(Output Tokens Per Second),在不同輸出長度(0%、15%、100%)下,SGLang 的性能依然領先,尤其是結合 EP 和 TP 的混合策略(橙色柱)。

預填充-解碼分離與專家并行:技術核心解析

SGLang 的成功離不開兩大關鍵技術:預填充-解碼分離和專家并行。以下是對這兩項技術的簡要解析:

  1. 預填充-解碼分離(Prefill-Decode Disaggregation)

預填充(prefill)和解碼(decode)是大語言模型推理的兩個主要階段。預填充階段需要快速處理輸入 token 以生成初始上下文,而解碼階段則逐個生成輸出 token。傳統的并行策略(如張量并行)通常將兩者綁定在同一組 GPU 上,但這往往無法同時滿足兩階段的不同性能需求。

SGLang 的解決方案是將預填充和解碼階段分離到不同的 GPU 組,并為每個階段定制并行策略。例如:

  • 預填充階段更適合使用張量并行(TP),以滿足低延遲需求(如聊天機器人要求首次響應時間低于 0.2 秒)。

  • 解碼階段則更適合數據或流水線并行,以提升吞吐量,匹配人類閱讀速度。

LMSYS Org 提供了以下架構圖,展示了這一分離策略的具體實現:

預填充-解碼分離架構


圖2:預填充-解碼分離架構

  • 圖中展示了 12 個節點(每節點 8 個 H100 GPU)的部署方式。預填充工作節點(Prefill Workers)負責初始上下文生成,解碼工作節點(Decode Workers)則專注于生成輸出 token。

  • 通過 KV Cache 傳輸,兩個階段高效協作,大幅提升了整體性能。

  1. 專家并行(Expert Parallelism, EP)及優化技術

DeepSeek V3/R1 模型采用了混合專家(MoE)架構,這種架構通過將計算任務分配給多個“專家”來提升性能,但也帶來了負載不均衡和通信開銷的挑戰。SGLang 引入了專家并行(EP)并結合多項優化技術來解決這些問題:

  • DeepEP:專為 MoE 架構設計的通信庫,支持高效的“all-to-all”通信模式,在 NVLink 和 RDMA 上實現了接近理論峰值的性能(分別達到 158 GB/s 和 47 GB/s)。

  • EPLB(Expert Parallel Load Balancing):解決專家負載不均衡問題,確保計算資源的高效利用。

  • Two-Batch Overlap:通過雙批次重疊隱藏通信開銷,進一步提升吞吐量。

  • DeepGemm:優化了 FP8 精度的矩陣乘法運算(GEMM),顯著提升計算效率。

以下圖表展示了雙批次重疊的效果:

雙批次重疊效果



圖3:雙批次重疊優化

  • 上圖展示了無序調度下的資源浪費(Wasted MLP)。

  • 下圖展示了通過雙批次重疊實現的計算與通信重疊,顯著提升了效率。

成本優化:每百萬 token 僅 0.20 美元

除了性能提升,SGLang 的實現還大幅降低了運行成本。通過在 Atlas Cloud 上部署 12 個節點(每節點 8 個 H100 GPU),SGLang 將輸出 token 的成本降至 每百萬 token 0.20 美元,僅為 DeepSeek 官方 Chat API 成本的 五分之一。

這一成本優勢得益于本地化部署和高效的資源利用。相比之下,DeepSeek 官方 API 的高成本可能源于云端基礎設施的運營費用,而 SGLang 的開源實現允許用戶直接在本地集群上運行模型,極大降低了依賴外部服務的開銷。

這一成果是多個機構開源協作的典范,LMSYS Org 在帖子中特別感謝了 NVIDIA、LinkedIn 和 Kimi_Moonshot 等合作伙伴的貢獻。同時,他們呼吁社區進一步探索、復制和擴展這項工作,共同推動高效 AI 部署的邊界。

此外,AMD 也在 2025 年 4 月宣布,其 Instinct? GPU 已通過 SGLang 優化支持 DeepSeek V3 模型,進一步擴展了這一技術的影響力。未來,隨著 DeepSeek R2 等新模型的推出,SGLang 的優化策略有望在更廣泛的場景中得到應用。

總結

SGLang 的開源實現通過預填充-解碼分離和專家并行技術,為 DeepSeek V3/R1 模型的部署帶來了性能和成本的雙重突破。其吞吐量接近官方數據,輸出性能提升高達 5 倍,同時將成本降低至每百萬 token 0.20 美元。結合直觀的圖表(如吞吐量對比、架構圖和優化效果圖),我們可以看到這一技術如何在實際場景中高效運行。

對于 AI 從業者和研究者來說,SGLang 的開源代碼和詳細博客(鏈接[1])提供了寶貴的參考,值得深入探索和實踐。這一成果不僅展示了開源社區的強大力量,也為大語言模型的高效部署樹立了新的標桿。

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

參考資料

鏈接: https://t.co/D5J9n2LdZ5

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
韓國隊蘇杯丟冠后,樸柱奉回國接受采訪

韓國隊蘇杯丟冠后,樸柱奉回國接受采訪

佑銘羽球
2025-05-08 15:33:09
江蘇一市兩家事業單位,擬注銷

江蘇一市兩家事業單位,擬注銷

魯中晨報
2025-05-07 18:24:01
一干部接受紀律審查和監察調查

一干部接受紀律審查和監察調查

錫望
2025-05-07 16:51:31
比董小姐還牛!中專表演學歷入職協和醫院,還在“4+4”名單中

比董小姐還牛!中專表演學歷入職協和醫院,還在“4+4”名單中

坦然風云
2025-05-07 09:58:14
常年吃海鮮,老伯身上長滿痛風石!手腳扭曲變形成“老姜” !

常年吃海鮮,老伯身上長滿痛風石!手腳扭曲變形成“老姜” !

佛山電視臺小強熱線
2025-04-20 18:05:15
美女撈相機溺亡后續:生前畫面慘烈,知情人曝內幕,有潛水經驗

美女撈相機溺亡后續:生前畫面慘烈,知情人曝內幕,有潛水經驗

素衣讀史
2025-05-08 14:16:30
俄專家評價:中國很多武器性能超過美國,但都有一個共同缺點

俄專家評價:中國很多武器性能超過美國,但都有一個共同缺點

八斗小先生
2025-01-13 18:12:53
水餃皇后:如果不是查演員表,我都沒看出糖水伯,還演過香港仔

水餃皇后:如果不是查演員表,我都沒看出糖水伯,還演過香港仔

體育官已上任
2025-05-04 09:25:16
29國領導人齊聚莫斯科,普京給中國統一大業,備好一份意外驚喜?

29國領導人齊聚莫斯科,普京給中國統一大業,備好一份意外驚喜?

夢史
2025-05-08 11:01:27
廣廈VS北京G2時間確定,許利民祭出三塔戰術,孫銘徽別再搞心態了

廣廈VS北京G2時間確定,許利民祭出三塔戰術,孫銘徽別再搞心態了

體育大學僧
2025-05-08 07:43:16
印度戰機被擊落后,向我國提出抗議,島內專家:印度輸得不冤

印度戰機被擊落后,向我國提出抗議,島內專家:印度輸得不冤

DS北風
2025-05-08 16:34:12
廣廈隊今日傳出王博、孫銘微與胡金秋最新動態!

廣廈隊今日傳出王博、孫銘微與胡金秋最新動態!

格斗聯盟有話說
2025-05-08 10:16:09
烏克蘭447架無人機大軍襲擊俄羅斯,俄閱兵計劃瞬間被打亂!

烏克蘭447架無人機大軍襲擊俄羅斯,俄閱兵計劃瞬間被打亂!

國際情爆猿
2025-05-07 20:35:10
人間水蜜桃,某網紅公園秀瑜伽高難度動作,誰看了不迷糊

人間水蜜桃,某網紅公園秀瑜伽高難度動作,誰看了不迷糊

說真話的小陳
2025-05-07 11:04:07
中美關稅戰一個月后,傳來意外之喜,中國“統一大業”或加快步伐

中美關稅戰一個月后,傳來意外之喜,中國“統一大業”或加快步伐

阿紿聊社會
2025-05-08 14:37:54
六旬老婦為夫購壽面,中途發現忘帶錢急忙返家,開門一刻呆在原地

六旬老婦為夫購壽面,中途發現忘帶錢急忙返家,開門一刻呆在原地

磊子講史
2025-05-08 14:56:11
英冠升級附加賽將至!謝菲聯主帥:客戰布里斯托爾城全力爭勝,不會采用消極比賽方式

英冠升級附加賽將至!謝菲聯主帥:客戰布里斯托爾城全力爭勝,不會采用消極比賽方式

雷速體育
2025-05-08 16:08:25
云浮羅定市副市長陳致遠被查

云浮羅定市副市長陳致遠被查

新快報新聞
2025-05-08 15:50:04
李嫣兔唇痕跡消失不見,有王菲當媽真好,“鈔能力”送她別樣人生

李嫣兔唇痕跡消失不見,有王菲當媽真好,“鈔能力”送她別樣人生

漣漪讀史
2025-05-08 09:26:17
社保斷繳、沒繳滿15年或20年,2025年新規下,全都這樣處理

社保斷繳、沒繳滿15年或20年,2025年新規下,全都這樣處理

山丘樓評
2025-02-13 11:16:34
2025-05-08 17:23:00
機器學習與Python社區 incentive-icons
機器學習與Python社區
機器學習算法與Python
2949文章數 11008關注度
往期回顧 全部

科技要聞

OpenAI任命"應用CEO" 奧特曼聚焦研究/安全

頭條要聞

國防部:做美國的朋友可能是致命的

頭條要聞

國防部:做美國的朋友可能是致命的

體育要聞

面對一群天賦怪,阿森納只能接受失敗

娛樂要聞

災難性公關 毀掉曾黎二十年人緣積累

財經要聞

57政策解讀:力度空前的系統性穩增長舉措

汽車要聞

23.68萬元起 新款途觀L Pro限時優惠5.8萬

態度原創

時尚
親子
房產
藝術
健康

主播塌房,他的人生如何被封殺?

親子要聞

意外懷孕吧,在線求姨媽

房產要聞

廣州樓市全線飄紅!二手增長20%,一手暴漲244.7%!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 靖边县| 东平县| 青海省| 兴宁市| 江永县| 遂平县| 金湖县| 许昌市| 合江县| 齐齐哈尔市| 探索| 漳浦县| 张家川| 广汉市| 乌什县| 海丰县| 湟源县| 勐海县| 南靖县| 泾阳县| 托克逊县| 顺昌县| 贡觉县| 丰镇市| 尚志市| 鱼台县| 同德县| 攀枝花市| 太仓市| 永修县| 长岭县| 和静县| 昌图县| 洛川县| 顺昌县| 开江县| 牡丹江市| 西城区| 安化县| 铁岭县| 江阴市|