99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

SGLang放大招,DeepSeek V3、R1 部署性能和成本雙重突破

0
分享至


大家好,我是Ai學習的老章

近年來,隨著大語言模型(LLM)的快速發展,如何高效部署和優化這些模型以滿足高吞吐量、低成本的需求成為行業熱點。

5月5日,LMSYS Org 在 X 平臺發布了一則令人振奮的消息:SGLang 提供了首個開源實現,用于在 96 個 GPU 上服務 DeepSeek V3/R1 模型,通過預填充-解碼分離(prefill-decode disaggregation)和大規模專家并行(expert parallelism, EP)技術,實現了驚艷的性能提升和成本優化。本文將詳細解析這一突破性進展,并結合相關圖表進行直觀展示。

SGLang 的開源實現:性能接近官方數據

LMSYS Org 宣布,SGLang 成功實現了 DeepSeek V3/R1 模型的高效服務,其核心在于利用預填充-解碼分離和專家并行技術,在 96 個 GPU 的集群上運行。具體而言,這一實現取得了以下性能:

  • 輸入吞吐量:每節點每秒 52.3K 輸入 token;

  • 輸出吞吐量:每節點每秒 22.3K 輸出 token。

這一數據幾乎與 DeepSeek 官方博客報告的吞吐量相當,顯示出 SGLang 優化的強大潛力。更令人印象深刻的是,與傳統的張量并行(tensor parallelism)相比,SGLang 的優化策略將輸出吞吐量提升了高達 5 倍。

以下是 LMSYS Org 提供的性能對比圖表,直觀展示了不同并行策略下的吞吐量表現:

吞吐量對比圖
圖1:輸入和輸出吞吐量對比

  • 左圖展示了輸入 token 吞吐量(Input Tokens Per Second),對比了不同并行策略(如 TP、EP2、TP16 等)在 1K、2K 和 4K 輸入長度下的表現。綠色柱(DeepSeek, Profiled)表示 SGLang 的優化結果,明顯優于其他策略。

  • 右圖展示了輸出 token 吞吐量(Output Tokens Per Second),在不同輸出長度(0%、15%、100%)下,SGLang 的性能依然領先,尤其是結合 EP 和 TP 的混合策略(橙色柱)。

預填充-解碼分離與專家并行:技術核心解析

SGLang 的成功離不開兩大關鍵技術:預填充-解碼分離和專家并行。以下是對這兩項技術的簡要解析:

  1. 預填充-解碼分離(Prefill-Decode Disaggregation)

預填充(prefill)和解碼(decode)是大語言模型推理的兩個主要階段。預填充階段需要快速處理輸入 token 以生成初始上下文,而解碼階段則逐個生成輸出 token。傳統的并行策略(如張量并行)通常將兩者綁定在同一組 GPU 上,但這往往無法同時滿足兩階段的不同性能需求。

SGLang 的解決方案是將預填充和解碼階段分離到不同的 GPU 組,并為每個階段定制并行策略。例如:

  • 預填充階段更適合使用張量并行(TP),以滿足低延遲需求(如聊天機器人要求首次響應時間低于 0.2 秒)。

  • 解碼階段則更適合數據或流水線并行,以提升吞吐量,匹配人類閱讀速度。

LMSYS Org 提供了以下架構圖,展示了這一分離策略的具體實現:

預填充-解碼分離架構


圖2:預填充-解碼分離架構

  • 圖中展示了 12 個節點(每節點 8 個 H100 GPU)的部署方式。預填充工作節點(Prefill Workers)負責初始上下文生成,解碼工作節點(Decode Workers)則專注于生成輸出 token。

  • 通過 KV Cache 傳輸,兩個階段高效協作,大幅提升了整體性能。

  1. 專家并行(Expert Parallelism, EP)及優化技術

DeepSeek V3/R1 模型采用了混合專家(MoE)架構,這種架構通過將計算任務分配給多個“專家”來提升性能,但也帶來了負載不均衡和通信開銷的挑戰。SGLang 引入了專家并行(EP)并結合多項優化技術來解決這些問題:

  • DeepEP:專為 MoE 架構設計的通信庫,支持高效的“all-to-all”通信模式,在 NVLink 和 RDMA 上實現了接近理論峰值的性能(分別達到 158 GB/s 和 47 GB/s)。

  • EPLB(Expert Parallel Load Balancing):解決專家負載不均衡問題,確保計算資源的高效利用。

  • Two-Batch Overlap:通過雙批次重疊隱藏通信開銷,進一步提升吞吐量。

  • DeepGemm:優化了 FP8 精度的矩陣乘法運算(GEMM),顯著提升計算效率。

以下圖表展示了雙批次重疊的效果:

雙批次重疊效果



圖3:雙批次重疊優化

  • 上圖展示了無序調度下的資源浪費(Wasted MLP)。

  • 下圖展示了通過雙批次重疊實現的計算與通信重疊,顯著提升了效率。

成本優化:每百萬 token 僅 0.20 美元

除了性能提升,SGLang 的實現還大幅降低了運行成本。通過在 Atlas Cloud 上部署 12 個節點(每節點 8 個 H100 GPU),SGLang 將輸出 token 的成本降至 每百萬 token 0.20 美元,僅為 DeepSeek 官方 Chat API 成本的 五分之一。

這一成本優勢得益于本地化部署和高效的資源利用。相比之下,DeepSeek 官方 API 的高成本可能源于云端基礎設施的運營費用,而 SGLang 的開源實現允許用戶直接在本地集群上運行模型,極大降低了依賴外部服務的開銷。

這一成果是多個機構開源協作的典范,LMSYS Org 在帖子中特別感謝了 NVIDIA、LinkedIn 和 Kimi_Moonshot 等合作伙伴的貢獻。同時,他們呼吁社區進一步探索、復制和擴展這項工作,共同推動高效 AI 部署的邊界。

此外,AMD 也在 2025 年 4 月宣布,其 Instinct? GPU 已通過 SGLang 優化支持 DeepSeek V3 模型,進一步擴展了這一技術的影響力。未來,隨著 DeepSeek R2 等新模型的推出,SGLang 的優化策略有望在更廣泛的場景中得到應用。

總結

SGLang 的開源實現通過預填充-解碼分離和專家并行技術,為 DeepSeek V3/R1 模型的部署帶來了性能和成本的雙重突破。其吞吐量接近官方數據,輸出性能提升高達 5 倍,同時將成本降低至每百萬 token 0.20 美元。結合直觀的圖表(如吞吐量對比、架構圖和優化效果圖),我們可以看到這一技術如何在實際場景中高效運行。

對于 AI 從業者和研究者來說,SGLang 的開源代碼和詳細博客(鏈接[1])提供了寶貴的參考,值得深入探索和實踐。這一成果不僅展示了開源社區的強大力量,也為大語言模型的高效部署樹立了新的標桿。

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

參考資料

鏈接: https://t.co/D5J9n2LdZ5

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
600415,“大牛股”盤中跌停!發生了什么

600415,“大牛股”盤中跌停!發生了什么

新浪財經
2025-06-27 16:49:07
里夫斯拒四年8920萬續約:明夏可追五年2.46億 湖媒直言該交易他

里夫斯拒四年8920萬續約:明夏可追五年2.46億 湖媒直言該交易他

顏小白的籃球夢
2025-06-27 00:54:08
2025溫網女單簽表公布!鄭欽文首輪遇苦主,王欣瑜首輪穆霍娃

2025溫網女單簽表公布!鄭欽文首輪遇苦主,王欣瑜首輪穆霍娃

女網連連看
2025-06-27 20:30:13
“假球”都解釋不了,中國三人男籃闖進世界杯8強,劇情太狗血

“假球”都解釋不了,中國三人男籃闖進世界杯8強,劇情太狗血

真理是我親戚
2025-06-27 15:27:29
二道販子太可惡!小米yu7閑魚訂單鋪天蓋地,雷總管管吧

二道販子太可惡!小米yu7閑魚訂單鋪天蓋地,雷總管管吧

牛斯克
2025-06-27 09:31:18
張學良兒子張閭琳辭世:9歲赴美,娶陳濟棠侄女,所生兩子皆成才

張學良兒子張閭琳辭世:9歲赴美,娶陳濟棠侄女,所生兩子皆成才

柳絮憶史
2025-06-17 08:35:03
追求標準答案危害無窮

追求標準答案危害無窮

水寒說語文
2025-06-26 17:30:16
緊急避雷!“毒兒童牙膏”相繼曝光,絕非危言聳聽,家長速自查!

緊急避雷!“毒兒童牙膏”相繼曝光,絕非危言聳聽,家長速自查!

阿傖說事
2025-06-26 08:02:00
你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

快科技
2025-06-25 16:18:11
這是阿嬌你敢相信嗎?看著也不胖??!而且非常平板該有的都沒看到

這是阿嬌你敢相信嗎?看著也不胖??!而且非常平板該有的都沒看到

素衣讀史
2025-06-21 14:13:38
硅谷殺妻案背后:于軒一從沒有被愛過,對方一直與前女友藕斷絲連

硅谷殺妻案背后:于軒一從沒有被愛過,對方一直與前女友藕斷絲連

史行途
2025-06-27 18:32:58
貝佐斯夫婦威尼斯婚禮歡迎晚宴賓客們, 小李子,卡戴珊家族等人

貝佐斯夫婦威尼斯婚禮歡迎晚宴賓客們, 小李子,卡戴珊家族等人

老吳教育課堂
2025-06-27 15:55:43
中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

Steam社區
2025-06-26 11:57:21
月薪3萬offer,進去半年就廢了?高薪陷阱,正在毀掉一批年輕人…

月薪3萬offer,進去半年就廢了?高薪陷阱,正在毀掉一批年輕人…

火山詩話
2025-06-26 16:49:29
黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

漢史趣聞
2025-06-24 10:07:59
今年養老金調整有點“小意外”,通知要7月公布嗎?誰能漲的多?

今年養老金調整有點“小意外”,通知要7月公布嗎?誰能漲的多?

小舟談歷史
2025-06-26 08:44:01
李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

檸檬有娛樂
2025-06-27 10:13:46
補助標準99元/人,今年全國老年人免費健康體檢項目再擴容

補助標準99元/人,今年全國老年人免費健康體檢項目再擴容

每日經濟新聞
2025-06-26 21:32:42
我媽和二嬸不對付,鄰居蓋房占地二嬸吵不贏,我媽擼起袖子沖上去

我媽和二嬸不對付,鄰居蓋房占地二嬸吵不贏,我媽擼起袖子沖上去

多多故事薈
2025-06-10 09:10:03
李月汝首發狂砍15+10,主帥稱贊表現出色

李月汝首發狂砍15+10,主帥稱贊表現出色

發財西瓜
2025-06-27 12:25:38
2025-06-27 21:40:49
機器學習與Python社區 incentive-icons
機器學習與Python社區
機器學習算法與Python
3014文章數 11024關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

炸裂!榜一大姐深夜怒錘頂流

財經要聞

合新鐵路建設材料以次充好 多家單位被罰

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

健康
手機
家居
藝術
數碼

呼吸科專家破解呼吸道九大謠言!

手機要聞

小米MIX Flip2線下上手:體驗后,說說真實感受

家居要聞

明亮寬敞 空間合理安排

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

極摩客 EVO-X2 AI 桌面主機圖賞:輕巧緊湊,銳龍AI Max+ 395加持

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 神池县| 翁源县| 岚皋县| 金山区| 乌拉特前旗| 奇台县| 周口市| 库车县| 永城市| 奉贤区| 焉耆| 保康县| 建水县| 陈巴尔虎旗| 陵川县| 婺源县| 南丹县| 自治县| 余庆县| 永州市| 崇阳县| 广汉市| 波密县| 东至县| 玉树县| 平原县| 道孚县| 西青区| 芮城县| 汕尾市| 阿拉善盟| 峨山| 通山县| 盖州市| 教育| 平潭县| 阿荣旗| 黔江区| 尚义县| 农安县| 胶州市|