99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

華為+DeepSeek,終于不再“服務器繁忙”?

0
分享至


沒有人不在期待大模型能夠成為下一個電動車,作為代表中國的新興產業,在世界范圍內掀起狂瀾。

然而主流的MoE架構大模型,卻苦于其結構上的“先天不足”:巨大的硬件成本與多重拖累效率的環節,使得中國企業在這場芯片堆砌與效率挖掘的苦徑上難以提速。

作為作為智能基礎設施提供商,華為在這場戰役中另辟蹊徑,利用其在數學算法和工程領域的深厚積累,為DeepSeek顯著提升了效率及用戶體驗。

山就在那里,但中國企業找到了不一樣的登頂之路。

大火的MoE專家網絡,也有冷熱不均的問題

在人工智能技術日新月異的當下,大語言模型的發展持續突破邊界。混合專家模型(MoE)作為提升大語言模型性能的關鍵技術,近年來備受矚目。

它通過將輸入 token 分配給不同的專家網絡,實現了模型的高效擴展,讓模型在處理復雜任務時展現出更強的能力。然而,如同硬幣的兩面,MoE 模型在發展過程中也面臨著嚴峻挑戰,其中負載均衡問題尤為突出。

在混合專家(MoE)模型的推理過程中,專家調用頻率的不均衡性,即“冷熱專家”現象,導致負載分布顯著不均,嚴重影響系統推理性能。這一問題源于部分專家(熱專家)被高頻調用,而其他專家(冷專家)使用率極低,調用頻率差距可達一個數量級以上。具體而言,該問題表現為以下幾個方面:

負載不均:部分專家(熱專家)被頻繁調用,而其他專家(冷專家)使用率較低,頻率差距達到一個數量級以上。 推理延遲增加:負載不均衡導致慢速計算節點成為推理瓶頸,延長整體推理時間。 吞吐量受限:資源利用率不足,限制系統性能。

顯著提升MoE模型推理性能的極致均衡技術

針對上述問題,華為團隊提出了一種高效的負載均衡策略OmniPlacement,通過專家重排、層間冗余部署和近實時動態調度,顯著提升MoE模型的推理性能。

華為團隊在研究中設計了一種基于層間非均勻冗余的優化方案,旨在以較低的顯存開銷實現高效的動態負載均衡和高魯棒性。方案包含以下關鍵技術模塊:

基于計算均衡的聯合優化

通過分析專家激活數據,華為團隊識別出高頻調用的專家(熱專家)和低頻調用的專家(冷專家),并提出了一種基于計算均衡的聯合優化算法OmniPlacement。該算法根據專家調用頻率和計算需求優化部署順序,顯著降低負載不均現象。具體而言,該算法具有以下特點:

動態優先級調整:通過實時統計專家調用頻率,動態調整專家的優先級和節點分配,確保高頻專家優先部署在計算能力較強的節點上。

通信域優化:算法分析批次內激活卡數,優化跨節點通信域的范圍,減少通信延遲。相比傳統的靜態分配方法,本算法顯著降低了通信開銷。

層間差異化部署:允許不同層根據負載特性設置不同的專家部署策略,支持非均勻冗余次數配置,從而更好地適應層間負載差異。

層間高頻專家冗余部署

為緩解熱專家的高頻調用壓力,華為團隊還提出了一種層間專家冗余部署策略,通過為高頻調用專家分配額外的冗余實例,降低跨節點通信開銷,從而提升系統吞吐量。該策略的創新點包括:

動態資源分配:根據實時計算資源占用情況和專家調用頻率,動態調整冗余實例的分配比例。系統通過預測模型提前分配資源,減少冷熱專家間的性能差距。 層間差異化配置:不同層根據負載需求設置不同的冗余次數,增強對層間負載差異的適應能力。例如,高負載層可分配更多的冗余實例,而低負載層則減少冗余以節省顯存。 預測性分配:結合歷史激活數據和負載預測模型,系統能夠提前優化資源分配,降低突發負載對系統性能的影響。

近實時調度與動態監控機制

為進一步提升系統的動態適應性,本研究設計了一套近實時調度與動態監控機制,具體包括以下子模塊:

近實時調度:通過實時統計數據流特性,動態調整專家分配以適應輸入數據的變化。調度算法能夠在毫秒級時間內收斂到優化的靜態專家部署模式,確保推理過程的高效性和一致性。該機制通過迭代優化專家分配,顯著降低了動態調整的計算開銷。 動態監控:實時跟蹤專家激活數據和系統資源占用情況,為調度決策提供準確依據。監控任務在獨立的計算流中運行,避免對推理主流程的干擾,保障系統整體效率。 動態專家權重訪問與擺放:通過層間流水線設計,實現專家權重和分配的動態調整。系統在推理過程中并行處理權重更新和數據流分配,支持高效的專家動態擺放。流水線設計允許在不中斷推理流程的情況下完成權重調整,顯著降低高負載場景下的推理延遲。

上述機制通過高效的并行處理和快速收斂設計,顯著提升了系統的動態適應能力和推理性能。特別是動態監控與調度分離的設計,避免了監控任務對推理延遲的潛在影響,進一步增強了系統的魯棒性。

擁抱開源生態的開放實現

為支持上述技術的穩定運行,本研究開發了適用于vLLM的推理優化框架OmniPlacement,具有以下核心特點:

高兼容性:框架支持多種MoE模型架構,能夠無縫集成到現有的推理系統中。 低時延開銷:通過優化數據處理和調度流程,框架顯著減少了額外計算開銷,確保推理性能不受影響。 模塊化設計:框架包含數據統計、算法運行和專家調度三大模塊,各模塊功能解耦,支持功能擴展和維護。模塊化設計便于快速迭代和定制化開發。 可擴展性:框架支持動態添加新的負載均衡算法和調度策略,適應未來MoE模型的復雜需求。

OmniPlacement通過模塊化架構實現核心算法與推理流程的解耦,為大規模MoE模型推理提供了可靠的基礎設施。框架的設計理念是將負載均衡功能與推理主流程分離,從而在保證性能的同時提供高度的靈活性。

同時在OmniPlacement的開發過程中,華為團隊也應用了業界很多已有的開源最佳實踐,站在巨人的肩膀上,華為團隊也會在近期全面開源OmniPlacement,回饋開源社區與開發者,為未來前行者在昇騰搭建更好的一個階梯。


圖:OmniPlacement與基線和BestEP的性能對比

為驗證OmniPlacement方案的有效性,本研究在DeepSeek-V3模型上進行了全面的實驗測試,實驗環境包括多節點GPU集群和高并發推理場景。測試結果如下:

推理延遲:相比基線方法(未優化負載均衡的MoE模型),推理延遲平均降低約10%。延遲的減少主要得益于動態專家分配和通信域優化,顯著改善了用戶體驗。 吞吐量:系統吞吐量提升約10%,反映了資源利用率的顯著提高。特別是在高并發場景下,冗余部署和動態調度有效緩解了負載瓶頸。 系統穩定性:在動態輸入和高負載場景下,系統保持高效運行,未出現性能波動或服務中斷。動態監控機制確保了系統對突發負載的快速響應。

進一步的分析表明,OmniPlacement在不同規模的MoE模型和輸入數據分布下均表現出良好的適應性。實驗結果驗證了該方案在推理性能、資源利用率和系統穩定性方面的綜合優勢,為大規模MoE模型的實際部署提供了可靠支持。

面向未來,華為團隊進一步的研究將重點關注以下方向:

調度算法優化:開發更智能的調度算法,通過引入其他策略,進一步提升系統對復雜輸入的自適應能力。

自適應專家選擇:探索基于輸入特征的自適應專家選擇機制,動態調整專家激活策略,以應對多樣化的推理場景。

框架擴展:擴展OmniPlacement框架的功能,支持更多類型的MoE模型,提升框架的通用性。

華為OmniPlacement 專家部署技術的發布,不僅是 MoE 模型推理性能的一次突破性提升,更標志著昇騰計算體系在 AI 算力領域的競爭力再攀高峰。這種技術突破背后,是華為長期深耕芯片架構、算法、軟件生態與行業場景的厚積薄發。

本內容為作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯系 hezuo@huxiu.com

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4371483.html?f=wyxwapp

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
我升副廳后回老家,同學會被初戀和她老公嘲諷,結賬時他倆傻了

我升副廳后回老家,同學會被初戀和她老公嘲諷,結賬時他倆傻了

今天說故事
2025-05-19 14:19:22
新疆隊齊麟宣布結婚!球迷送祝福:妻子如仙女下凡,祝早生貴子

新疆隊齊麟宣布結婚!球迷送祝福:妻子如仙女下凡,祝早生貴子

體育哲人
2025-05-20 17:48:11
手指上有了這種東西,說明你體內毒素可能堆積如山,不妨對照一下

手指上有了這種東西,說明你體內毒素可能堆積如山,不妨對照一下

罐兒哥中醫自媒體
2025-05-20 07:29:26
阿根廷記者爆料:恩佐下賽季鐵定身披皇馬戰袍,球迷:高級貨別來

阿根廷記者爆料:恩佐下賽季鐵定身披皇馬戰袍,球迷:高級貨別來

側身凌空斬
2025-05-20 18:28:29
罰球11-3,西決G1:森林狼客場領先雷霆3分,亞歷山大8中2、7罰

罰球11-3,西決G1:森林狼客場領先雷霆3分,亞歷山大8中2、7罰

娛樂看阿敞
2025-05-21 09:28:24
隨著曼城3-1贏伯恩茅斯,升第3!英超前5基本確定,切爾西恐無緣

隨著曼城3-1贏伯恩茅斯,升第3!英超前5基本確定,切爾西恐無緣

球場沒跑道
2025-05-21 08:55:16
隨著曼城3-1,水晶宮4-2,英超最新積分榜:曼城重回第3,爭5占先機!

隨著曼城3-1,水晶宮4-2,英超最新積分榜:曼城重回第3,爭5占先機!

呀古銅
2025-05-21 05:29:30
布朗獲FMVP:總決賽兩次轟40+6戰180分 率廣廈奪冠男籃該歸化他

布朗獲FMVP:總決賽兩次轟40+6戰180分 率廣廈奪冠男籃該歸化他

醉臥浮生
2025-05-20 22:01:06
逼人質道謝的蒙面哈馬斯成員被以色列清除了

逼人質道謝的蒙面哈馬斯成員被以色列清除了

桑未落
2025-05-21 04:01:20
耗資1億上映1天就被判死刑,票房僅125萬,這電影就是個笑話

耗資1億上映1天就被判死刑,票房僅125萬,這電影就是個笑話

靠譜電影君
2025-05-19 22:11:25
美籍猶太人評上海夜景:都是假象,日本韓國不像中國那樣隱瞞真相

美籍猶太人評上海夜景:都是假象,日本韓國不像中國那樣隱瞞真相

阿傖說事
2025-05-19 12:49:50
家族走私稀土被抓!深圳海關破獲300噸磁粉,手段堪比間諜片

家族走私稀土被抓!深圳海關破獲300噸磁粉,手段堪比間諜片

二月侃事
2025-05-20 16:52:00
國家消防救援局應急通信和科技司負責人張昊,被查

國家消防救援局應急通信和科技司負責人張昊,被查

新京報政事兒
2025-05-20 22:31:36
雷軍:小米玄戒O1已開始大規模量產

雷軍:小米玄戒O1已開始大規模量產

界面新聞
2025-05-20 10:10:31
特訊!俾路支驚變,獨立夢碎,中巴鐵拳粉碎陰謀

特訊!俾路支驚變,獨立夢碎,中巴鐵拳粉碎陰謀

智觀科技
2025-05-20 10:17:05
什么情況!陳幸同竟拒接對手發球,直接舉手向裁判投訴!

什么情況!陳幸同竟拒接對手發球,直接舉手向裁判投訴!

夢史
2025-05-20 22:36:23
反轉了!錯過航班大鬧機場當事人澄清:并非考公 不是母子 內情曝出

反轉了!錯過航班大鬧機場當事人澄清:并非考公 不是母子 內情曝出

天氣觀察站
2025-05-20 14:04:48
為了出片不要命!

為了出片不要命!

上觀新聞
2025-05-20 15:49:24
奧運冠軍陳夢徹底放飛自我了?看她胖的:粗壯的大腿,胖胖的臉

奧運冠軍陳夢徹底放飛自我了?看她胖的:粗壯的大腿,胖胖的臉

娛樂看阿敞
2025-05-19 09:38:23
知名男演員去世,被稱當地“喜劇之王”

知名男演員去世,被稱當地“喜劇之王”

魯中晨報
2025-05-21 09:25:04
2025-05-21 10:12:49
虎嗅APP incentive-icons
虎嗅APP
個性化商業資訊與觀點交流平臺
24144文章數 686195關注度
往期回顧 全部

科技要聞

網易直擊IO大會:Gemini接管一切 眼鏡炸場

頭條要聞

韓網媒記者捏造"中國間諜"信息 被韓國警方提捕

頭條要聞

韓網媒記者捏造"中國間諜"信息 被韓國警方提捕

體育要聞

廣廈總冠軍!CBA歷史第8支總冠軍球隊!

娛樂要聞

包文婧二胎生啦 曬出四人全家福

財經要聞

馬斯克暗示不再“燒錢”搞政治

汽車要聞

幾千塊提不走!最便宜的汽車奔騰小馬真相在這里

態度原創

手機
親子
藝術
教育
公開課

手機要聞

科技昨夜今晨0521:蘋果WWDC25 官宣6 月 10 日開幕

親子要聞

鄰居請我們吃飯,姐妹倆很開心,元元對燒烤又有了信心

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

學霸思維訓練:考眼力和幾何模型的應用,真難啊

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 保康县| 铜梁县| 金山区| 美姑县| 武定县| 津南区| 东阳市| 抚远县| 郎溪县| 贵港市| 建水县| 江川县| 琼结县| 辰溪县| 石渠县| 昌宁县| 新乡市| 宁都县| 双鸭山市| 霍山县| 洛宁县| 东至县| 平泉县| 中西区| 探索| 镇坪县| 雷波县| 文成县| 阿尔山市| 邢台县| 林周县| 天全县| 鹤壁市| 财经| 甘洛县| 蒙城县| 左贡县| 徐汇区| 长宁县| 武城县| 繁峙县|