數(shù)字時(shí)代,最重要的資源是什么?毫無(wú)疑問(wèn)是算力。無(wú)處不在的算力正成為激活數(shù)據(jù)要素潛能、驅(qū)動(dòng)經(jīng)濟(jì)社會(huì)數(shù)字化轉(zhuǎn)型的新引擎。
過(guò)去十幾年,云、大數(shù)據(jù)、區(qū)塊鏈以及人工智能的大模型等,對(duì)算力產(chǎn)生巨大需求。而摩爾定律逐漸放緩和登納德縮放定律走向終結(jié),算力供需失衡問(wèn)題日益突出。當(dāng)前的數(shù)據(jù)中心計(jì)算體系架構(gòu)中,“內(nèi)存墻”、“I/O墻”、“功耗墻”已成新的挑戰(zhàn),數(shù)據(jù)中心計(jì)算體系架構(gòu)的創(chuàng)新已迫在眉睫。
新時(shí)代的算力,需要新想法、新解決辦法,打破各種“圍墻”,以探討化解可持續(xù)的發(fā)展問(wèn)題。
算力的“圍墻”,如何攻破?
算力正在像水、電一樣成為基礎(chǔ)設(shè)施,是數(shù)字經(jīng)濟(jì)發(fā)展中的核心動(dòng)能。從“要想富,先修路”到“想發(fā)展,投算力”,算力基礎(chǔ)設(shè)施等“新基建”正在國(guó)內(nèi)掀起“落地潮”。
智慧時(shí)代,業(yè)務(wù)場(chǎng)景日益復(fù)雜多元針對(duì)傳統(tǒng)高性能計(jì)算,特別今天針對(duì)地震波的模擬科學(xué)計(jì)算,可能需要LP64雙精度的計(jì)算能力;而新興起的AI訓(xùn)練可能需要混合精度LP32或者LP16的計(jì)算能力;AI推理則需要Int8或者Int4的計(jì)算能力,不同場(chǎng)景對(duì)于算力要求不一樣。數(shù)據(jù)量級(jí)上,不同應(yīng)用場(chǎng)景需要的量級(jí)從GB到TB到PB不斷提升。不同計(jì)算場(chǎng)景催生了越來(lái)越多的計(jì)算芯片,從通用計(jì)算芯片到AI計(jì)算芯片到可定義計(jì)算的芯片到整個(gè)算力平臺(tái),百花齊放。
多元算力平臺(tái)的蓬勃發(fā)展,實(shí)際上給算力基礎(chǔ)設(shè)施帶來(lái)了巨大挑戰(zhàn)。比如,現(xiàn)在異構(gòu)芯片種類(lèi)比較多,大家接口標(biāo)準(zhǔn)不一樣,生態(tài)體系差異也很大,產(chǎn)業(yè)化面臨著非常巨大的挑戰(zhàn)。企業(yè)在面臨業(yè)務(wù)應(yīng)用時(shí),同時(shí)要部署多種多樣不同類(lèi)型的算力,算力池化、融合、調(diào)度、應(yīng)用面臨巨大挑戰(zhàn)。
浪潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥表示:“當(dāng)前數(shù)據(jù)中心遇到的 ‘內(nèi)存墻’ 、‘I/O墻’、‘功耗墻’等現(xiàn)象并不是孤立存在,它們是現(xiàn)有計(jì)算體系架構(gòu)不足放大后的體現(xiàn)。只有通過(guò)計(jì)算體系架構(gòu)的整體創(chuàng)新,才能徹底解決各種瓶頸帶來(lái)的挑戰(zhàn)。”
計(jì)算體系架構(gòu)的整體創(chuàng)新是什么?浪潮信息給出的破局之道就是融合架構(gòu)。自2014年浪潮信息提出融合架構(gòu)指明數(shù)據(jù)中心體系結(jié)構(gòu)的發(fā)展方向到現(xiàn)在,融合架構(gòu)即將走過(guò)10年歷程。
趙帥總結(jié),融合架構(gòu)分為三個(gè)階段:第一階段更多是融合整個(gè)系統(tǒng)的基礎(chǔ)設(shè)施,集中供電、散熱,實(shí)現(xiàn)了非IT資源的集中和模塊化;第二階段,非計(jì)算部分的存儲(chǔ)、網(wǎng)絡(luò)等設(shè)備做池化,應(yīng)用軟件虛擬化技術(shù)滿足云的需求;第三階段,研究一致性的高速互聯(lián)、軟件定義等關(guān)鍵技術(shù),創(chuàng)新產(chǎn)品的形態(tài),融合多元算力,實(shí)現(xiàn)整個(gè)計(jì)算資源的解耦、池化和效力提升,可擴(kuò)展性可以提升2-4倍,達(dá)到更好的應(yīng)用效果。
當(dāng)前,融合架構(gòu)進(jìn)入第三階段,即基于軟件定義和硬件重構(gòu)的思路,通過(guò)計(jì)算資源、內(nèi)存資源、加速資源多種硬件解耦和軟件定義實(shí)現(xiàn)融合,根據(jù)應(yīng)用場(chǎng)景靈活進(jìn)行資源調(diào)配,從而提升資源的整體利用率。
以系統(tǒng)架構(gòu)創(chuàng)新把算力圍墻“炸”開(kāi)
如何以系統(tǒng)化思維,突破計(jì)算體系架構(gòu)?8月10日,在北京舉行的第五屆OCP China Day 2023(開(kāi)放計(jì)算中國(guó)技術(shù)峰會(huì))上,浪潮信息正式推出融合架構(gòu)3.0原型系統(tǒng),通過(guò)系統(tǒng)架構(gòu)創(chuàng)新解耦重構(gòu)服務(wù)器系統(tǒng),突破性實(shí)現(xiàn)了計(jì)算資源、存儲(chǔ)資源、內(nèi)存資源、異構(gòu)加速資源等核心IT資源徹底解耦與池化,可支持多種通用處理器平臺(tái)與GPU、FPGA、DPU等多種異構(gòu)加速單元的協(xié)同計(jì)算,并可通過(guò)軟件定義實(shí)現(xiàn)資源協(xié)同動(dòng)態(tài)調(diào)度。
OCP China Day 2023上,
浪潮信息正式推出融合架構(gòu)3.0原型系統(tǒng)
內(nèi)存解耦與池化一直是業(yè)界的熱點(diǎn)與難點(diǎn)。隨著以CXL為代表的串行緩存一致性總線的出現(xiàn),給主機(jī)和遠(yuǎn)端共享內(nèi)存之間提供了低延時(shí)的訪問(wèn)路徑以及緩存一致性保證,為大規(guī)模內(nèi)存擴(kuò)展與內(nèi)存資源池化提供了可能。融合架構(gòu)3.0原型系統(tǒng)突破內(nèi)存解耦池化關(guān)鍵技術(shù),研制新型應(yīng)用串行緩存一致性總線及其交換技術(shù)的內(nèi)存模組和內(nèi)存池化系統(tǒng),保障主機(jī)系統(tǒng)對(duì)大容量、高帶寬內(nèi)存的應(yīng)用需求。
趙帥介紹,融合架構(gòu)3.0原型系統(tǒng)首創(chuàng)JBOM獨(dú)立內(nèi)存資源池設(shè)計(jì),創(chuàng)新實(shí)現(xiàn)標(biāo)準(zhǔn)服務(wù)器高密度內(nèi)存擴(kuò)展方案,主機(jī)系統(tǒng)遠(yuǎn)端內(nèi)存擴(kuò)展技術(shù)領(lǐng)先業(yè)界。通過(guò)軟件定義系統(tǒng)設(shè)計(jì)及CXL高性能交換技術(shù),率先實(shí)現(xiàn)內(nèi)存資源池化與細(xì)粒度多主機(jī)共享。
融合架構(gòu)3.0,不是一個(gè)技術(shù)的突破,而是突破多個(gè)技術(shù)點(diǎn)后形成的系統(tǒng)級(jí)的解決方案。在這種高效能融合架構(gòu)系統(tǒng)里,除了通過(guò)多元異構(gòu)來(lái)提升絕對(duì)性能之外,也通過(guò)更多基礎(chǔ)架構(gòu)設(shè)計(jì)方面的創(chuàng)新,包括空間架構(gòu),液環(huán)式真空負(fù)壓液冷架構(gòu),讓數(shù)據(jù)中心提供了高算力,可持續(xù)的算力。趙帥表示,融合架構(gòu)3.0原型系統(tǒng)效率可比上一代軟件虛擬化系統(tǒng)提升一到兩個(gè)數(shù)量級(jí),可擴(kuò)展性提高2~4倍,系統(tǒng)延時(shí)降低90%,PUE低于1.1。
通過(guò)融合架構(gòu)3.0,讓數(shù)據(jù)中心由資源驅(qū)動(dòng)型向業(yè)務(wù)驅(qū)動(dòng)型的轉(zhuǎn)變,真正意義上實(shí)現(xiàn)開(kāi)放融合、安全高效、智能綠色、靈動(dòng)成長(zhǎng)。
向“數(shù)據(jù)中心即計(jì)算機(jī)”終極目標(biāo)邁進(jìn)
回到融合架構(gòu)的設(shè)計(jì)理念來(lái)看,其核心就在于通過(guò)硬件解耦實(shí)現(xiàn)物理資源的池化和動(dòng)態(tài)重構(gòu),通過(guò)軟件定義實(shí)現(xiàn)業(yè)務(wù)感知的按需資源組合與配置,滿足系統(tǒng)的彈性伸縮和超大規(guī)模的持續(xù)擴(kuò)展,實(shí)現(xiàn)軟硬高度協(xié)同發(fā)展。
這樣的設(shè)計(jì)理念為數(shù)據(jù)中心發(fā)展提供了一個(gè)非常有想象力的空間,那就是可以做各種服務(wù)器系統(tǒng)的異步迭代。因?yàn)榻怦钪螅皇且蕴幚砥鳛楹诵模嗟氖且詳?shù)據(jù)為核心,通過(guò)系統(tǒng)設(shè)計(jì)來(lái)實(shí)現(xiàn)異步迭代。比如通用計(jì)算單元,異構(gòu)計(jì)算單元,內(nèi)存單元,IO單元都可以按照業(yè)界最先進(jìn)的技術(shù)發(fā)展水平同步去迭代,也可以按照業(yè)務(wù)需求去異步迭代,為客戶(hù)帶來(lái)更高價(jià)值。
未來(lái),可能每一個(gè)節(jié)點(diǎn)都不是以CPU為中心,而是以數(shù)據(jù)處理單元為核心構(gòu)建一個(gè)完整的數(shù)據(jù)中心交換體系,實(shí)現(xiàn)融合架構(gòu)的終極目標(biāo),那就是實(shí)現(xiàn)了 “服務(wù)器即計(jì)算機(jī)(Server as a Computer)” “機(jī)柜即計(jì)算機(jī)(Rack as a Computer)”之后的“數(shù)據(jù)中心即計(jì)算機(jī)(Data Center as a Computer)”。
趙帥表示,浪潮信息發(fā)布融合架構(gòu)3.0,還有一個(gè)愿景是希望推動(dòng)這種開(kāi)放的架構(gòu)和領(lǐng)先的技術(shù)走向千行百業(yè),讓各行各業(yè)的用戶(hù)能夠看到技術(shù)的進(jìn)步,能夠快速的響應(yīng)和知道互聯(lián)網(wǎng)在用什么,先進(jìn)的企業(yè)在用什么,真正讓技術(shù)走向普適和普惠。隨著數(shù)字經(jīng)濟(jì)、人工智能持續(xù)發(fā)展,企業(yè)的各項(xiàng)業(yè)務(wù)越來(lái)越依賴(lài)數(shù)據(jù)及其價(jià)值,算力技術(shù)也需要不斷演進(jìn),融合架構(gòu)3.0原型系統(tǒng)的發(fā)布,有助于企業(yè)提升數(shù)據(jù)管理效率,最大化釋放數(shù)據(jù)價(jià)值。
如今,摩爾定律接近極限,性能提升變緩,單純依靠芯片獲得算力增長(zhǎng)的傳統(tǒng)模式需要重新思考。需要整個(gè)產(chǎn)業(yè)鏈從上游廠商到算力平臺(tái)供應(yīng)商、到軟件供應(yīng)商一起努力,解決整個(gè)供應(yīng)和產(chǎn)業(yè)鏈問(wèn)題。而浪潮信息發(fā)布融合架構(gòu)3.0,充分釋放算力,以系統(tǒng)視角解決產(chǎn)業(yè)發(fā)展遇到的問(wèn)題,無(wú)疑推動(dòng)算力產(chǎn)業(yè)前進(jìn)了一大步。
更多相關(guān)閱讀
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.