在通往通用人工智能(AGI)的路上,如何像其他領(lǐng)域一樣實(shí)現(xiàn)彎道超車,是業(yè)界繞不開的話題。
在過去的十余年時(shí)間里,各項(xiàng)單點(diǎn)技術(shù)飛速演進(jìn),但隨著單點(diǎn)技術(shù)演進(jìn)的邊際效應(yīng)遞減和系統(tǒng)復(fù)雜度的提升,系統(tǒng)性能的天花板逐步從單點(diǎn)技術(shù)的上限演變成系統(tǒng)工程上限:?jiǎn)吸c(diǎn)優(yōu)勢(shì)越來越像是精致的零件,提升空間有限;但采用系統(tǒng)工程創(chuàng)新,各個(gè)部分完美配合、高效協(xié)同,實(shí)現(xiàn)整個(gè)系統(tǒng)的效能最優(yōu),才有更積極的現(xiàn)實(shí)意義。
如何在發(fā)揮單點(diǎn)技術(shù)優(yōu)勢(shì)的同時(shí),以整體視角重新構(gòu)建路徑,通過對(duì)復(fù)雜系統(tǒng)的極致把控與再組織、找到新的突破可能?解決這個(gè)看似不可能的問題,就有望為我們獨(dú)立引領(lǐng)最前沿技術(shù)發(fā)展創(chuàng)造條件。
近期,虎嗅將推出《華為技術(shù)披露集》系列內(nèi)容,通過一系列技術(shù)報(bào)告,首次全面詳述相關(guān)技術(shù)細(xì)節(jié),為業(yè)界提供參考價(jià)值。
我們期待通過本系列內(nèi)容,攜手更多伙伴共同構(gòu)建開放協(xié)作的生態(tài)系統(tǒng),助力昇騰生態(tài)在中國(guó)的蓬勃發(fā)展。
《華為技術(shù)披露集》系列 VOL.16 :384超節(jié)點(diǎn)
在5月底的昇騰AI峰會(huì)上,華為正式推出“昇騰 CloudMatrix 384超節(jié)點(diǎn)”算力集群解決方案。
根據(jù)官方公告,這個(gè)算力平臺(tái)基于384顆昇騰芯片構(gòu)建,通過全互聯(lián)對(duì)等架構(gòu)實(shí)現(xiàn)芯片間高效協(xié)同,可提供高達(dá)300 PFLOPs的稠密BF16算力。
這一能力,已經(jīng)超越了英偉達(dá)此前發(fā)布的B200 NVL 72平臺(tái),180PFLOPs的稠密BF16算力,為中國(guó)企業(yè)終結(jié)了底層算力的憂慮。
在禁令層層加碼的情況下,為什么華為還能利用工藝制程落后的昇騰910系列芯片,在算力集群上實(shí)現(xiàn)后來居上?
“以非摩爾補(bǔ)摩爾、以集群補(bǔ)單芯片”
在討論華為如何短時(shí)間內(nèi)實(shí)現(xiàn)趕超的問題前,我們需要先明確一個(gè)問題:“384超節(jié)點(diǎn)”算是華為在制裁下的無奈之舉嗎?
不完全是。
除了制裁下尋求破局這個(gè)角度,華為打造“超節(jié)點(diǎn)”這件事,恰恰展現(xiàn)了其作為全球頂尖科技公司的遠(yuǎn)見——隨著制程技術(shù)的不斷升級(jí),半導(dǎo)體性能提升的摩爾效應(yīng)正在加速失效,不僅芯片需要面對(duì)漏電、結(jié)構(gòu)迫近物理極限等一系列問題。技術(shù)升級(jí)帶來的成本指數(shù)級(jí)飆升,也正在拉低新制程的革新優(yōu)勢(shì)。
以實(shí)際的芯片落地為例,即使客戶選擇全球頂尖代工廠,從5納米升級(jí)到3納米制程,代工成本將增加數(shù)倍,但晶體管密度也只有15%-20%的提升。這種“投入多,但提升少”的困境,正隨著制程工藝的持續(xù)升級(jí)而不斷加劇。
既然無法從“單點(diǎn)”解決發(fā)展的挑戰(zhàn),那就只能從“系統(tǒng)層面”下手了。通過系統(tǒng)工程的創(chuàng)新,彌補(bǔ)芯片工藝落后的問題。
前不久,黃仁勛公開表達(dá),“從技術(shù)參數(shù)看,華為的CloudMatrix 384超節(jié)點(diǎn),性能上超越了英偉達(dá)”。CloudMatrix384超節(jié)點(diǎn)里面有384個(gè)卡,這些卡要連在一起像一臺(tái)計(jì)算機(jī)一樣高效的工作,除了計(jì)算,還包括內(nèi)存,通信,存儲(chǔ),架構(gòu),調(diào)度,并行,散熱,供電,高速互聯(lián)等資源調(diào)度問題。
只有讓各個(gè)組成部分有效地配合在一起運(yùn)行,才能使整個(gè)系統(tǒng)效能最佳。一位華為技術(shù)專家向虎嗅表示, “超大規(guī)模MoE模型的訓(xùn)練就是一項(xiàng)復(fù)雜的系統(tǒng)工程,挑戰(zhàn)很大,如果你深入下去就會(huì)發(fā)現(xiàn)到處是擁塞,很多是串行,到處是等待,很大情況是資源不匹配,還有一些則是重復(fù)計(jì)算或重復(fù)數(shù)據(jù)搬運(yùn),蘊(yùn)藏著巨大的改進(jìn)空間”。
面對(duì)這些問題,華為的研發(fā)人員決定從底層重構(gòu)現(xiàn)有的算力架構(gòu)。
一場(chǎng)“系統(tǒng)工程的勝利”
昇騰團(tuán)隊(duì)做的第一個(gè)“重構(gòu)”,就是“全對(duì)等高速互聯(lián)的架構(gòu)”。
展開來說,這是一項(xiàng)基于高速總線互聯(lián)技術(shù)實(shí)現(xiàn)的重大突破,它相當(dāng)于把總線從服務(wù)器內(nèi)部,擴(kuò)展到整機(jī)柜、甚至跨機(jī)柜。
在超節(jié)點(diǎn)范圍內(nèi),用高速總線互聯(lián)替代傳統(tǒng)以太,通信帶寬提升了15倍;單跳通信時(shí)延也從2微秒做到200納秒,降低了10倍,使集群如同一臺(tái)計(jì)算機(jī)般協(xié)同工作,有效突破系統(tǒng)性能限制。
緊接著,團(tuán)隊(duì)又設(shè)計(jì)了“全局內(nèi)存統(tǒng)一編址”,通過虛擬化技術(shù)將分散在各節(jié)點(diǎn)的內(nèi)存池虛擬為統(tǒng)一地址空間,支持跨節(jié)點(diǎn)直接內(nèi)存訪問。
這使得大模型訓(xùn)練中頻繁的參數(shù)同步操作,無需經(jīng)過傳統(tǒng)的“序列化-網(wǎng)絡(luò)傳輸-反序列化”流程,直接通過內(nèi)存語義通信完成,可滿足大模型訓(xùn)練/推理中的小包通信需求,提升專家網(wǎng)絡(luò)小包數(shù)據(jù)傳輸及離散隨機(jī)訪存通信效率。
值得一提的是,研發(fā)團(tuán)隊(duì)還對(duì)“384 超節(jié)點(diǎn)”的資源調(diào)度進(jìn)行了升級(jí):細(xì)粒度動(dòng)態(tài)切分,基于對(duì)MoE模型結(jié)構(gòu)的深度感知,超節(jié)點(diǎn)可將模型層間計(jì)算任務(wù)按專家分布動(dòng)態(tài)切分至不同節(jié)點(diǎn)。例如對(duì)包含288個(gè)專家的模型,可將每個(gè)專家分配至獨(dú)立NPU,同時(shí)通過智能路由算法優(yōu)化跨節(jié)點(diǎn)通信路徑,使計(jì)算與通信耗時(shí)比從傳統(tǒng)的1:1升至3:1。
事后來看,完成上述重構(gòu)設(shè)計(jì),行業(yè)中可能只有華為能在短時(shí)間內(nèi)完成。因?yàn)槠浔澈笫巧婕暗氖腔A(chǔ)軟件、計(jì)算、內(nèi)存、通信、架構(gòu)、調(diào)度、散熱、供電、高速互聯(lián)等多個(gè)領(lǐng)域的“協(xié)同作戰(zhàn)”,而且每個(gè)領(lǐng)域都需要深厚的技術(shù)積累。
就比如說最基礎(chǔ)的通信,傳統(tǒng)銅纜在龐大規(guī)模的集群節(jié)點(diǎn)中會(huì)產(chǎn)生明顯的信號(hào)衰減,因此昇騰團(tuán)隊(duì)選擇了華為自主研發(fā)的400G光模塊解決互聯(lián)問題;又由于“超節(jié)點(diǎn)”的網(wǎng)絡(luò)拓?fù)浒l(fā)生變化,還不能用傳統(tǒng)的光調(diào)度系統(tǒng),但華為此前研發(fā)的OXC(全光交叉聯(lián)接)剛好可以解決這個(gè)問題。
類似的例子還有很多,應(yīng)該說在CloudMatrix 384超節(jié)點(diǎn)的研發(fā)過程中,華為過去幾十年在硬件工程和基礎(chǔ)軟件方面積累的經(jīng)驗(yàn),被集中展示了出來。
據(jù)悉,華為內(nèi)部有個(gè)算力會(huì)戰(zhàn),集結(jié)了超過萬人的團(tuán)隊(duì),把華為云、模型、底座、芯片、硬件工程、基礎(chǔ)軟件的人集結(jié)在一起,跨部門作戰(zhàn),深度協(xié)同,實(shí)現(xiàn)了“大雜燴”技術(shù)的有效利用和協(xié)同創(chuàng)新。這種“多產(chǎn)業(yè)集群”優(yōu)勢(shì),恐怕是行業(yè)內(nèi)任何一家公司都不具備的。
此外,從縱向來看,也就是把范圍縮小到AI產(chǎn)業(yè)中,華為也是為數(shù)不多既能做算力基礎(chǔ)設(shè)施,也能做基礎(chǔ)大模型的公司,這可以在公司內(nèi)部形成一個(gè)高效運(yùn)轉(zhuǎn)的“技術(shù)飛輪”。華為專家強(qiáng)調(diào):“只有做基礎(chǔ)大模型,才知道對(duì)算力底座有什么要求,才知道算力底座該怎么改進(jìn)。沒有這樣的牽引和支撐驅(qū)動(dòng)機(jī)制,可能都不能發(fā)現(xiàn)深層次的問題?!?/strong>
近期華為披露了盤古Ultra MoE準(zhǔn)萬億模型,同時(shí),盤古Pro MoE大模型在SuperCLUE榜單并列百億模型榜首的成績(jī),這充分映證了基于昇騰國(guó)產(chǎn)算力平臺(tái)也可以訓(xùn)練出世界一流的大模型。
生態(tài),還是生態(tài)
大家都知道,國(guó)產(chǎn)算力在生態(tài)方面是劣于英偉達(dá)CUDA生態(tài)的,這個(gè)問題需要長(zhǎng)時(shí)間的改進(jìn)。
“能用”和“易用”是兩個(gè)維度上的問題。想要將“384超節(jié)點(diǎn)”變成一套“易用”的算力平臺(tái),則需要華為在生態(tài)上提供更加全面的支持。
尤其考慮到此前開發(fā)者早已習(xí)慣于PyTorch、TensorFlow這種深度學(xué)習(xí)框架,或者是英偉達(dá)的CUDA。
而華為也早早地考慮到了這個(gè)問題。昇騰的異構(gòu)計(jì)算架構(gòu)CANN,從誕生之日起,就支持包括上述的開源學(xué)習(xí)框架。另外一方面,華為的AI框架昇思MindSpore已將生態(tài)兼容性列為最重要的事情,越來越貼近開發(fā)者的使用習(xí)慣。
虎嗅了解到,華為內(nèi)部明確要求將MindSpore的易用性放在首位,要做到讓開發(fā)者“過去怎么用PyTorch,現(xiàn)在就可以怎么用MindSpore”。針對(duì)企業(yè)遷移痛點(diǎn),華為推出專為昇騰打造的“遷移助手”MSAdaptor,在用戶界面與PyTorch API 保持一致,實(shí)現(xiàn)模型Day0遷移和一鍵部署。
華為還針對(duì)端到端的故障定位和故障快速恢復(fù)進(jìn)行了技術(shù)改進(jìn)。一位華為內(nèi)部人士向虎嗅透漏,在718B參數(shù)的Pangu Ultra MoE訓(xùn)練中,其故障恢復(fù)能夠由之前的幾個(gè)小時(shí)縮短到“分鐘級(jí)”。
值得一提的是,華為盤古大模型首先要考慮的問題是幫助關(guān)基行業(yè),像礦山、鋼鐵、電力、交通、能源、醫(yī)療、金融、港口等智能化升級(jí),為此華為設(shè)立了由中高級(jí)專家組成的“小巧靈突擊隊(duì)”,到一線現(xiàn)場(chǎng)支持客戶用好昇騰。
在生態(tài)方面的建設(shè)工作,注定會(huì)是漫長(zhǎng)的過程,昇騰的生態(tài)也在逐步完善,也包括對(duì)業(yè)界主流生態(tài)的兼容。據(jù)悉,華為近期將對(duì)外公布盤古模型和相關(guān)技術(shù)代碼的開源計(jì)劃,進(jìn)一步使能客戶自主開發(fā)、優(yōu)化,匹配客戶的應(yīng)用需求和開發(fā)模式。
在AI基礎(chǔ)設(shè)施加速推進(jìn)的今天,昇騰算力平臺(tái),承載的不僅是這家公司的技術(shù)野心,更是中國(guó)AI產(chǎn)業(yè)突破技術(shù)限制的希望。這場(chǎng)以整合創(chuàng)新驅(qū)動(dòng)的算力革命,或許正在書寫科技競(jìng)爭(zhēng)的全新范本。
本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表虎嗅立場(chǎng)。未經(jīng)允許不得轉(zhuǎn)載,授權(quán)事宜請(qǐng)聯(lián)系 hezuo@huxiu.com
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4475805.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.