SORA、ChatGPT的爆火在全球范圍內引發了一場AI“狂飆”,不僅讓全球點燃了百模大戰,也引爆了AI芯片的風口。由于進口算力受限,大模型已對國產AI算力提出了千卡甚至萬卡集群的需求。
不僅需求火爆,國家也積極扶持AI芯片落地政策。北京市在4月底剛剛出臺《北京市算力基礎設施建設實施方案(2024-2027年)》,對企業擴大資金的舉措,意在提升人工智能算力券政策效能,鼓勵企業用好智能算力資源,加快推動大模型賦能行業。
政策翻譯過來,主要有2個核心要點:
1, 對新增的采購國產“自主可控”AI芯片算力的公司(比如大模型公司),北京市給予投資額支持(補貼)
2, 對存量的AI算力數據中心,主動進行國產芯片“綠色改造”,北京市給予投資額支持(補貼)
在中國半導體受到不公正的產業限制下,為立足于國家安全及自主可控,國產AI芯片無疑成為最佳替代選擇,處于市場和政策的雙重風口下。
AI芯片風口,華為、摩爾線程暫時領跑
如果說2023年是AI大模型市場的百“模”爭鳴,那么2024年則將帶動AI芯片的風口爆發。國內外廠商頻頻發力,不僅有亞馬遜、微軟、華為、百度、阿里等下游客戶推動自研芯片開發,國內AI芯片也百花齊放,華為、摩爾線程、寒武紀、壁仞、天數智芯等也在各施奇招,爭奪登上前往AI時代的一張新船票。
目前而言,國產AI芯片大體呈現了三個梯隊的格局。以產品性能、量產規模、擁有集群能力且已有場景落地等要素來考量,華為、海光、寒武紀、摩爾線程等公司可歸為國產AI芯片的頭部梯隊。目前國內只有華為和摩爾線程,可以實現國產化的千卡集群,其它廠商還在百卡階段徘徊。而一些起步不久的初創類芯片廠商,由于還在驗證或量產階段,產品仍在打磨階段。
夸娥突破國產AI智算集群的4大難關
隨著百億、千億參數大模型的出現,AI算力已戰至千卡、甚至萬卡集群的新階段,但是在落地時,千卡集群面臨著大規模內網互聯、存儲高速吞吐、模型優化服務、平臺生態服務等技術瓶頸。
中國工程院院士鄭緯民在4月28日舉行的“中國移動算力網絡大會”上強調,構建基于國產AI卡的萬卡大模型訓練平臺,要考慮網絡平衡設計、體系結構感知的內存平衡設計、IO子系統平衡設計,需要支持檢查點,增加SSD。
摩爾線程的夸娥千卡集群就在努力打破技術瓶頸,實現從GPU顯卡到服務器,最后組成集群,包括了硬件的網絡、存儲、軟件,再到大模型調度,是一個全棧式的工程、端到端的交鑰匙方案。
大模型客戶對千卡集群的算力利用率、穩定性、可擴展性和兼容性的需求最為突出。這也成為千卡集群建設要邁過的四道難關,摩爾線程為此做足了準備。
1、軟硬協同,算力利用率提升超50%
算力利用率(MFU)是衡量智算中心能力的一個核心指標。
摩爾線程采用軟硬協同設計、端到端的并行策略,使得綜合調優下算力利用率(MFU)提升幅度超過50%。夸娥通過集群通訊庫算法、網絡拓撲、硬件規格合理設計和配置,優化集群匹配度;技術上,夸娥集群通訊算法網絡拓撲綜合利用了MTLink和PCIe,使得通訊性能提升一倍。
2、從芯片出廠開始,保證穩定可靠性
對于分布式訓練而言,一張卡壞了,整個訓練都會停掉。所以,在做千卡集群或者更大規模集群時,它對整個集群的可靠性要求會更高。
摩爾線程從卡的出廠開始保證算力質量,做了很多嚴格的測試;開發了集群系統監控和診斷工具,幫助篩選和快速定位到有問題的卡和服務器,可以自動恢復和硬件替換;做了checkpoint加速,寫的時間從10分鐘降到秒級,讀的速度從40分鐘降到2分鐘;判斷訓練異常,系統自動重新拉起。
3、提高可擴展性,線性加速比達91%
算力集群規模達到千卡,更是一個可擴展性的挑戰。夸娥支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在內的業界主流分布式框架。
同時,夸娥結合了摩爾線程顯卡硬件能力,以軟硬一體的方式,做了系統級優化,包括從硬件、軟件再到集群,外加云的全棧,不是單點突破,是一種全局綜合方案,從而使得線性加速比達到91%。
4、零成本CUDA代碼移植,兼容多個主流大模型
基于摩爾線程代碼移植Musify工具,可快速將現有的主流遷移至MUSA,零成本完成CUDA代碼自動移植,之后用戶短時間內即可完成熱點分析和針對性優化,大大縮短遷移優化的周期。此外,借助摩爾線程元計算統一系統架構MUSA,用戶可以復用PyTorch開源社區的大量模型算子,降低開發成本。
總的來說,國產AI算力正處在市場和政策的雙重風口,國產化替代勢在必行。不過,國產化算力仍有技術、生態等多方面挑戰,華為昇騰、摩爾線程夸娥只是邁出了從“建起來”到“用起來”的第一步跨越,仍需長期追趕世界先進水平。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.