隨著以AI開發(fā)和應(yīng)用為主的智算中心成為中國新基建底座成為政府相關(guān)部門及業(yè)內(nèi)的共識,其布局和建設(shè)也開始逐漸步入快車道。這之中,既有傳統(tǒng)的ICT企業(yè),也不乏新興的AI初創(chuàng)企業(yè)。接下來的是,智算中心如何才能在保證效率的同時,快速發(fā)展。
AI多樣化挑戰(zhàn),智算需要異構(gòu)計算力
眾所周知,對整個 AI 行業(yè)來講,算法、數(shù)據(jù)和算力三大基本要素中,數(shù)據(jù)尤其是海量數(shù)據(jù)的獲取和處理難度在下降,算法也在深度學(xué)習(xí)模型的基礎(chǔ)上不斷優(yōu)化,而負責(zé)將數(shù)據(jù)和深度算法統(tǒng)一協(xié)調(diào)起來的芯片(決定算力)能否獲得大的飛躍,成為市場關(guān)注的焦點。
熟悉AI的業(yè)內(nèi)知道,深度學(xué)習(xí)算法對芯片性能需求主要表現(xiàn)在以下三個方面。
首先是海量數(shù)據(jù)在計算和存儲單元之間的高速通信需求。這不但需要芯片具備強大的緩存和片上存儲能力,而且還需要計算和存儲單元之間有較大的通信帶寬;其次是專用計算能力需求高。深度學(xué)習(xí)算法中有大量卷積、殘差網(wǎng)絡(luò)、全連接等特殊計算需要處理,還需要提升運算速度,降低功耗;最后是海量數(shù)據(jù)自身處理同樣也對芯片提出了新的要求,尤其是非結(jié)構(gòu)化數(shù)據(jù)的增多,對傳統(tǒng)芯片結(jié)構(gòu)造成了較大的壓力。
以深度學(xué)習(xí)為例,CPU雖可用,但效率較低。比如在圖像處理領(lǐng)域,主要用到的是 CNN(卷積神經(jīng)網(wǎng)絡(luò)),在自然語言識別、語音處理等領(lǐng)域,主要用到的是 RNN(循環(huán)神經(jīng)網(wǎng)絡(luò)),雖然這兩種算法模型有著較大的區(qū)別,但本質(zhì)上都是向量和矩陣運算,主要是加法和乘法,輔助一些除法和指數(shù)運算。傳統(tǒng) CPU 可用于做上述運算,但是CPU 還有大量的計算邏輯控制單元,這些單元在 AI 計算中幾乎無用武之地,造成了CPU 在 AI 計算中的性價比較低。
反映到以AI算力為核心的智算中心,則體現(xiàn)在巨量化和多元化的挑戰(zhàn)上。
以多元化為例,AI應(yīng)用引入了新的計算類型,從推理到訓(xùn)練跨度大,同時數(shù)據(jù)量也從GB到TB、PB不斷提升,數(shù)據(jù)類型從結(jié)構(gòu)化到半結(jié)構(gòu)化、非結(jié)構(gòu)化更加復(fù)雜多樣。而不同數(shù)值精度的計算類型對計算芯片的指令集、架構(gòu)等要求也不一樣,這樣就導(dǎo)致之前一直使用的通用CPU和架構(gòu)效率低下,甚至沒有辦法滿足多元計算場景的要求。
正是因為傳統(tǒng)CPU在上述AI 計算上的弱點,給可以實現(xiàn)海量并行計算且能夠?qū)M行計算加速的AI芯片留下了市場空間,例如GPU、FPGA以及ASIC(專用芯片)等。
那么問題來了,這些芯片在AI開發(fā)和應(yīng)用中的表現(xiàn)有何異同呢?
據(jù)權(quán)威報告顯示,在AI應(yīng)用中,CPU 通用性最強,但延遲嚴重,散熱高,效率最低;GPU通用性強、速度快、效率高,特別適合用在深度學(xué)習(xí)訓(xùn)練方面,但是性能功耗比較低;FPGA 具有低能耗、高性能以及可編程等特性,相對于CPU與GPU 有明顯的性能或者能耗優(yōu)勢,但對使用者要求高;ASIC 可以更有針對性地進行硬件層次的優(yōu)化,從而獲得更好的性能、功耗比。但是ASIC芯片的設(shè)計和制造需要大量的資金、較長的研發(fā)周期和工程周期,而且深度學(xué)習(xí)算法仍在快速發(fā)展,若深度學(xué)習(xí)算法發(fā)生大的變化,F(xiàn)PGA能很快改變架構(gòu),適應(yīng)最新的變化,ASIC類芯片一旦定制則難于進行修改。
從上述我們不難看出,AI芯片可謂各有千秋。當前階段,GPU配合CPU仍然是AI芯片的主流,而隨著視覺、語音、深度學(xué)習(xí)的算法在FPGA以及ASIC芯片上的不斷優(yōu)化,此兩者也將逐步占有更多的市場份額,從而與GPU達成長期共存的局面。
落地到產(chǎn)業(yè)AI化、智算中心等大規(guī)模AI計算系統(tǒng)建設(shè)時,則需要打破傳統(tǒng)的計算體系結(jié)構(gòu)設(shè)計(采用多種AI芯片的異構(gòu)來滿足不同的AI開發(fā)和應(yīng)用需求)的同時,還要從根本上解決各種類型AI芯片的連接接入標準不同,用戶在使用多元AI芯片系統(tǒng)時會遇到系統(tǒng)適配、芯片驅(qū)動、互聯(lián)互通、功耗管理、安全傳輸、易用性等各類問題,給用戶在部署多元AI芯片算力系統(tǒng)時帶來的巨大挑戰(zhàn)。
而這需要相關(guān)企業(yè)在硬件和軟件技術(shù)的創(chuàng)新融合。一方面計算軟件將基于對應(yīng)用需求的拆解進行對硬件能力的適配管理,軟件定義的范圍和影響力將繼續(xù)拓展,不僅可實現(xiàn)面向應(yīng)用的整體系統(tǒng)資源調(diào)度和管理,還需針對網(wǎng)絡(luò)、存儲等個性化需求實現(xiàn)軟硬解耦和資源靈活配置。另一方面計算硬件將通過與算法和框架等深度融合的專用定制,實現(xiàn)對特定應(yīng)用需求的支持,最終完成異構(gòu)之下AI算力的生產(chǎn)、聚合、調(diào)度和釋放,讓數(shù)據(jù)進去讓智慧出來,實現(xiàn)智能計算中心的理想目標。
以浪潮發(fā)布新版的AIStation人工智能推理服務(wù)平臺為例,其已經(jīng)實現(xiàn)了對英偉達、寒武紀、昆侖芯、高通等6家國際及國內(nèi)廠商的12款A(yù)I和GPU芯片的多元算力支持。
具體到應(yīng)用,該平臺可支持超過1千節(jié)點的超大規(guī)模人工智能集群調(diào)度管理。基于虛擬化、容器化技術(shù)簡化算力調(diào)度過程,幫助用戶擺脫在大規(guī)模計算集群中進行設(shè)備選擇、設(shè)備適配等繁雜工作,提高調(diào)度效率。可實現(xiàn)資源敏捷調(diào)配,將資源利用率從40%提高到85%,支持多源模型統(tǒng)一調(diào)度,使模型部署上線從2-3天縮短到5分鐘,實現(xiàn)業(yè)務(wù)快速上線。AIStation采用輕量化架構(gòu),支持高并發(fā)高吞吐,服務(wù)響應(yīng)平均延遲低于1ms,應(yīng)對突發(fā)場景可在幾分鐘內(nèi)自動完成服務(wù)擴容。
此外,AIStation支持GPU、MLU等芯片的細粒度劃分。用戶不需要修改模型應(yīng)用即可實現(xiàn)單張加速卡上同時運行多個應(yīng)用服務(wù),解決資源浪費問題。在金融業(yè)務(wù)身份識別場景中,通過AIStation的細粒度切分,一張GPU卡最多能同時運行4個身份識別實例,可將資源利用效率提高2到4倍,大幅提升在線業(yè)務(wù)處理能力。
通過上述我們可以看到,作為業(yè)界首個支持多元AI芯片算力的人工智能服務(wù)平臺,其不僅支持多元算力,更是充當了實現(xiàn)算力多元化的橋梁。即打通了多元芯片從適配、管理到應(yīng)用的路徑,通過標準化手段打造統(tǒng)一、開放、靈活的多元算力平臺,為智算中心建設(shè)提供更便捷的算力調(diào)度,讓AI開發(fā)和應(yīng)用更簡單,助力用戶充分使用多元算力實現(xiàn)AI技術(shù)創(chuàng)新和落地。目前,浪潮AIStation平臺還已被多家智算中心成功應(yīng)用于鐵路巡檢、保險理賠、金融風(fēng)控、智能手機、智能汽車等場景,給客戶帶來了真正的價值。
以保險業(yè)為例,隨著保險理賠線上化加速,某保險商遇到了計算資源壓力大理賠服務(wù)的升級,新業(yè)務(wù)上線需求不斷增長兩大計算力相關(guān)的問題,嚴重影響了理賠業(yè)務(wù)處理效率和用戶體驗。而借助浪潮 AIStation,該保險商很好地解決了 AI 線上理賠業(yè)務(wù)中計算資源壓力大、業(yè)務(wù)上線周期長等難題,實現(xiàn)了 AI 業(yè)務(wù)的秒級響應(yīng)、彈性擴縮容、平滑升級,將理賠系統(tǒng)的自動化程度提升了50%以上,平均理賠時效從過去的2-3天縮短到半小時。
他山之石可攻玉,多樣化市場競爭方能激活“鲇魚效應(yīng)”
除了上述智算中心發(fā)展中的技術(shù)挑戰(zhàn)需要多元化應(yīng)對外,從市場競爭層面更是如此。
所謂他山之石可以攻玉。一個新興產(chǎn)業(yè)從起步到發(fā)展壯大,均有其共性的一面。
以當下如火如荼的中國新能源汽車產(chǎn)業(yè)為例,特斯拉的一騎絕塵,打開了其發(fā)展的康莊大道;蔚來、小鵬、理想的羽翼漸豐,令后來者們蠢蠢欲動;比亞迪發(fā)力新能源賽道,給予了傳統(tǒng)車企轉(zhuǎn)型的信心;寧德時代的實力地位,奠定了中國新能源的基礎(chǔ)。在天時地利人和的刺激下,新能源汽車市場目前呈現(xiàn)出百花齊放、百家爭鳴的競爭局面。
眾所周知,市場參與者越多,創(chuàng)新和市場就越有活力。在中國,至少有15家汽車生產(chǎn)商月銷量至少為1000輛,包括現(xiàn)有汽車制造商(比亞迪、北汽、廣汽、吉利、上汽、奇瑞、長安、長城、江淮、大眾等)和初創(chuàng)企業(yè)(蔚來、小鵬、威馬、理想)。
與此同時,百花齊放、百家爭鳴的汽車產(chǎn)業(yè)展現(xiàn)了虹吸效應(yīng),擁有巨大的藍海市場與機會紅利,吸引跨界者的狂熱入局。參與者們雖一時難論成敗,也無法預(yù)測未來格局的變化,但大量企業(yè)的涌入和競爭,推動了中國智能電動汽車技術(shù)的升級、產(chǎn)業(yè)的發(fā)展,構(gòu)建起了龐大的汽車生態(tài)體系,為中國汽車品牌的崛起打下了堅實的基礎(chǔ),進而引領(lǐng)全球智能電動汽車的風(fēng)潮。
值得一提的是,在中國智能電動汽車的崛起中,曾經(jīng)嚴重阻礙市場競爭的“地方保護”主義在不同技術(shù)的比拼之下也逐漸被打破,例如上海、北京等城市已經(jīng)明確引進外地品牌新能源汽車參與市場競爭,上海甚至還對進口電動車開通上牌政策“綠色通道”,激活了市場的“鯰魚效應(yīng)”。而這正是“用好用活政策”的價值所在。
正是基于多樣化競爭和政策的支持,驅(qū)動了中國電動汽車產(chǎn)業(yè)的發(fā)展,成就了在中國市場如魚得水的特斯拉,誕生了“蔚小理”等后起之秀,給予了新興品牌們更多的信心。
據(jù)公安部交管局對外公布的統(tǒng)計數(shù)據(jù)顯示,截至2021年3月,中國新能源汽車保有量達551萬輛;其中,純電動汽車保有量449萬輛。中國已是世界第一大新能源汽車保有量市場。
與新能源汽車的發(fā)展類似,目前智算中心的布局和建設(shè)也正開始呈現(xiàn)出百花齊放、百家爭鳴的趨勢。例如國家信息中心于2020年就發(fā)布了《智能計算中心規(guī)劃建設(shè)指南》引導(dǎo)智算中心建設(shè);而今年7月舉辦的2021算力中心健康發(fā)展研討會則明確了智算中心標準,引導(dǎo)智算中心明確應(yīng)用場景和優(yōu)先任務(wù),保證算力資源建設(shè)合理、綠色。
盡管不同組織,不同企業(yè)牽頭勢必會導(dǎo)致智算中心在標準、建設(shè)和應(yīng)用等方面的差異性(如同當下新能源汽車領(lǐng)域不同車企不同的技術(shù)標準和發(fā)展路線),但在我們看來,這恰是智算中心快速發(fā)展和保證效率競爭之必須,唯有多樣化的競爭,才能大浪淘沙,才能讓政府相關(guān)部門在智算中心的布局和建設(shè)中有比較,摒棄“地方保護”主義,選擇適合于自身應(yīng)用需求的智算中心。
需要說明的是,相關(guān)媒體已經(jīng)發(fā)現(xiàn)在智算中心的建設(shè)和布局中,出現(xiàn)了價格虛高,對于智算定義混淆等問題,而這正是因為由于多樣化的市場競爭,讓業(yè)內(nèi)在智算中心的布局和建設(shè)中有比較(例如性能、應(yīng)用、價格等)才得以顯現(xiàn),那么剩下的自然就是大浪淘沙。
選擇多樣化,智能中心可用性的保障
既然智算已經(jīng)成為一個產(chǎn)業(yè),那么其發(fā)展,除了受到我們前述的技術(shù)、市場競爭等因素的影響外,如何布局和建設(shè)對于其未來也至關(guān)重要,而這無疑就涉及到了供需雙方的選擇。
如我們前述,技術(shù)與市場競爭的多樣化,理應(yīng)讓智算中心的布局和建設(shè)具備了多樣化選擇,而鑒于智算中心的基礎(chǔ)公共設(shè)施的屬性,作為需求方的政府相關(guān)部門在這其中將起到舉足輕重的作用。
那么接下來的挑戰(zhàn)則是如何進行多樣化的選擇?
眾所周知,智算中心應(yīng)秉承開放標準、集約高效、普適普惠三個原則已經(jīng)成為業(yè)內(nèi)的共識。而在我們看來,這三個原則踐行的基礎(chǔ)首先應(yīng)該以可用性為前提,即無論在何種條件下,智算中心都應(yīng)保持正常和高效的運轉(zhuǎn),這無疑對于需求方的政府相關(guān)部門提出了更高的要求。而這之中如何規(guī)避供應(yīng)鏈的脆弱性,即選擇供應(yīng)鏈脆弱性最低企業(yè)的智算中心標的是重中之重。
需要說明的是,脆弱性的概念最早來源于對自然環(huán)境的研究,自然環(huán)境中所有的系統(tǒng)均可能存在不同程度的脆弱性,它已經(jīng)成為系統(tǒng)安全領(lǐng)域不可或缺的一部分。脆弱性概念的普適性很強,目前已經(jīng)逐漸應(yīng)用于社會、經(jīng)濟系統(tǒng)的研究,如旅游系統(tǒng)、金融系統(tǒng)、供應(yīng)鏈系統(tǒng)等。
具體到供應(yīng)鏈系統(tǒng),其本身就存在高度脆弱性。這是由于供應(yīng)鏈本身具有復(fù)雜性和不確定性,而這些特性影響了供應(yīng)鏈中斷的發(fā)生概率和程度。加之近幾年,經(jīng)濟和政治環(huán)境等的重大變化,供應(yīng)鏈存在高度的脆弱性大大增加。
基于此,我們認為,政府相關(guān)部門在智算中心布局和建設(shè)的選項中,首先要秉承多樣化選擇的原則,并在此基礎(chǔ)上,全面衡量供應(yīng)各方可能存在的供應(yīng)鏈脆弱性的風(fēng)險,以在未來保證智算中心作為基礎(chǔ)公共設(shè)施的可用性,充分發(fā)揮其效率。
其實在我們看來,前述技術(shù)層面AI芯片的多元化本身(例如我們前述浪潮發(fā)布新版的AIStation推理服務(wù)平臺對于市場中12款A(yù)I異構(gòu)芯片的插拔式使用的支持和管理)就是降低供應(yīng)鏈脆弱性,最大限度保證智算中心可用性和高效在技術(shù)及應(yīng)用層面的最好實踐。
寫在最后:智算中心作為數(shù)字經(jīng)濟和新基建的底座,未來發(fā)展的多樣化(包括技術(shù)、市場競爭、客戶選擇)應(yīng)是大勢所趨,更應(yīng)是智算中心布局和建設(shè)參與各方求同存異基礎(chǔ)上的共識。只有這樣,智算中心才能真正做到開放標準、集約高效、普適普惠,為中國的數(shù)字經(jīng)濟發(fā)揮最大的助推作用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.