智能時代,大模型正在重構AI基礎設施,數據中心迎來算力、網絡、存儲、管理、能效的全向Scale(性能增強和規模擴展)創新挑戰。那么問題來了,作為力主開放的開放計算社區OCP和開放標準組織OCTC(中國電子工業標準化技術協會開放計算標準工作委員會)將如何應對這些挑戰?未來前景如何?剛剛結束的2024開放計算中國峰會給了我們答案。
AIGC時代帶來計算新挑戰
眾所周知,算力、算法和數據是推動人工智能發展的三大要素,尤其是在以大模型為主的AIGC時代,這三者的協同作用尤為顯著。自Transformer架構出現以來,大模型性能與其參數量、計算當量、數據量密切相關,這種現象被稱為Scaling Law。
隨著大模型快速迭代升級,模型能力持續進化,模型類型也從傳統的語言模型往多模態、長序列、混合專家模型等轉變,由此引發的則是對GPU domain、互聯、算力等的新需求,并對基礎設施、算力管理、迭代升級等都提出了新的挑戰,即生成式人工智能正在重構數據中心基礎設施,對計算效能、存儲容量及性能、網絡方案、資源調度管理、能效控制與管理各個方面均提出了更高要求。
OCTC秘書長,中國電子技術標準化研究院信息技術研究中心硬件研究室主任陳海認為,國內基礎設施面臨著計算能力、存儲能力和網絡能力,達不到一些大型模型以及行業模型的實際應用需求的挑戰。
“例如在計算能力方面,目前,國內外都出現了許多AI推理訓練的加速卡,但因為從硬件層面和它上層的運行軟件層面的兼容性,導致多卡異構或者是設備異構的時候,出現了諸多不兼容性的問題,進而造成一個應用場景可能只能應用于一個特定的專用設備之上,無法把算力基礎設施拉到一起并行計算。”陳海補充道。
一切計算皆AI,開放計算與時俱進
針對上述AIGC時代下,大模型Scalinglaw對算力擴展的巨大需求—Scaleup(單系統性能提升)和Scaleout(集群規模擴展)—帶來的新挑戰,全球化的開放合作變得至關重要。而一直以全球化開放合作為主旨,2011年由Facebook發起成立,目前擁有包括英特爾、微軟等在內的超360家企業的OCP和成立兩年多的OCTC,在2024開放計算中國峰會向外界展現出了與時俱進應對新挑戰的能力。
例如,目前開放計算加速規范(OAM)已成為全球最多高端AI加速芯片遵循的統一設計標準,全球20多家芯片企業支持開放加速規范標準(包括英偉達的HGX的baseboard也符合OAM規范),為AI芯片企業節省研發時間6個月以上,為整體產業研發投入節省數十億元,極大降低了AI算力產業創新的難度,加速高質量AI算力普惠發展。
值得一提的是,OAM規范還在持續迭代,未來基于OAM2.0規范的AI加速卡將支持8000張加速卡的卡間互聯,突破大模型Scale up互聯瓶頸。
除了上述的AI芯片和加速卡,在一切計算皆AI的時代,CPU同樣需要具有AI能力。但目前CPU多元化發展,如何快速完成CPU到計算系統的創新,使其能夠適用于AI推理負載,已經成為緩解當前AI算力稀缺、推動人工智能發展的關鍵環節。
事實是,目前CPU處理器有10多種,不同CPU處理器的接口和管理協議都不同,每款處理器都要經歷從芯片到服務器的12個月左右的產品研發,CPU處理器的研發也亟需實現標準化。
為此,在今年的開放計算中國峰會上,中國電子技術標準化研究院、浪潮信息、百度、英特爾等機構和企業宣布立項開放算力模組(OCM)團體標準,希望建立基于處理器的標準化算力模組單元,統一不同處理器算力單元對外高速互連、管理協議、供電接口等,實現不同架構處理器芯片兼容,方便用戶根據應用場景靈活、快速組合,推動算力產業高質量快速發展。
對此,浪潮信息服務器產品線總經理趙帥對《班門弄斧》進一步解釋稱,OCM標準的本質上把CPU完全解耦,但目前的挑戰還比較大,所以浪潮信息做了一個過渡,把CPU內存作為一個最小單元,這樣就可以把高速的、前向的和低速的、后向的定義成標準化的接口,對于用戶而言,買一臺服務器回去,需要用什么樣的算力,就可以很方便地選擇什么樣的算力,并且對于大規模用戶而言,它的運維管理非常簡單,這些才是開放的OCM對于用戶最大的優勢和價值。
需要說明的是,除了OCM外,成立僅兩年多時間的OCTC已全面布局開放標準建設,并構建起包含基礎設施、測評與服務、運維管理等在內的標準框架,遵循通用行業頭部用戶業務場景需求,覆蓋數據中心級液冷系統、全場景整機柜服務器、智能加速卡、數據中心管理等熱點方向,并將通用計算、柜計算、AI/異構、液冷等列入標準化建設的重點內容,助力推進數據中心綠色化、智能化、高質量發展。
據陳海介紹,OCTC在攻關技術研究方面,目前累計發布了5項技術白皮書來推動對新技術和組織內達成一致的通用技術推廣和宣傳應用;在標準方面,聯合服務器、存儲設備和網絡設備廠商立項和發布了12項團體性標準,而這12項團體標準彌補了行業,尤其是與液冷相關的新技術應用的空白。
綜上,我們看到,智能時代,“一切計算皆AI”,人工智能算力范式的不斷革新正驅動數據中心向更高效、更智能、更綠色、更多元演進,而OCP和OCTC作為當下數據中心持續創新的重要力量,正在以全球化協作與創新,合力解決智能時代下數據中心面臨的諸多挑戰,如硬件基礎設施迭代、軟件基礎架構融合、數據中心可持續發展等。
眾人拾柴火焰高,確保開放計算領先和普惠
OCP和OCTC之所以能夠做到在AIGC時代與時俱進,價值倍增,在我們看來,開放方能促進技術的迭代,而讓用戶真正參與進來,才能更快的看到新技術的發展,讓新技術應用到業務中,促進業務的發展,這些才是開放社區的長久繁榮的核心關鍵點。
與此同時,只有產業鏈每個廠商都因開源開放而獲益,并得到內生動力,開放社區才具備了持續不斷的創新和運營的基礎。
而在上述過程中,以浪潮信息、阿里云為代表的廠商在社區的貢獻實踐,核心廠商的參與反哺開放計算社區規模化發展和技術創新貢獻,讓社區的產品和市場需求匹配,降低參與廠商的獲客成本和使用成本。
這里,我們以核心廠商浪潮信息為例,作為OCP、ODCC、Open19、OCTC全球四大開放計算組織的核心成員,浪潮信息在開放社區的參與度越來越深,從貢獻設計規范,到參與開發標準,再到牽頭標準的制定。
目前,浪潮信息已積極參與面向AI、邊緣等標準規范的建立,并牽頭服務器全部國標、OAM規范、天蝎標準、邊緣OTII規范、OpenBMC、OpenRMC管理標準等。
此外,浪潮信息還同時推動技術標準產品化,率先向社區貢獻了多款產品,包括AI開放加速計算系統、OTII邊緣計算服務器、符合三大開放組織標準(OCP, ODCC, Open19)的整機柜產品等等;并在OCTC牽頭柜計算技術項目,旨在定義一種高效、統一的整機柜服務器通用技術方案,實現整機柜服務器規模化推廣。2024年1月浪潮信息牽頭編寫《全液冷冷板系統參考設計及驗證白皮書》并面向業界開放下載,參編的《基于標準PCIe接口的人工智能加速卡液冷設計白皮書》、《數據中心物理基礎設施管理要求白皮書》等也陸續發布。
除浪潮信息外,作為OCP核心廠商之一的阿里云也秉持開放合作的策略,積極參與推動產業發展和繁榮。
比如在標準貢獻上,以CXL(ComputeExpress Link,一種新型高速互聯技術)為例,阿里云全程參與了了CXL 1.0/1.1/2.0/3.0/3.1標準的制定和發布,使得阿里在CXL互聯的研究和落地上處于國內領先和業界第一梯隊的位置。而在UCIe(UniversalChiplet Interconnect Express,即通用芯粒互連技術)領域,阿里云也積極組織相關技術團隊參與UCIe多個工作組,參與標準制定工作。
對此,阿里云基礎設施服務器研發產業合作總監吳靈熙介紹,作為CXL的初始會員,也是UCIe的初始會員,阿里云現在也在積極參與UALink等Scale up網絡開放聯盟的籌建工作。阿里云也是最早一批OCP在中國大陸的CSP的白金客戶。在開放合作組織中,阿里云看到通過一個更加公平、開放、共享的社區文化,或者是一個開源的宗旨,能夠使得整個行業的所有參與者都能在開源組織的活動中得到收益,所以阿里云非常積極地參與進來。
在我們看來,在“一切計算皆AI”的AIGC普及和AI算力已經深入到千行百業,滲透進每一個計算設備,面向人工智能的算力范式不斷革新的背景下,如何保持開放計算的領先性和讓更多的行業受益,在當下和未來顯得至關重要。
對此,OCP基金會新興市場副總裁SteveHelvie稱,OCP的一個主題就是會把超大規模用戶的這些最佳實踐,盡可能地延展到通用行業,所有行業都可以從在OCP內開發的開放設計中受益。基金會希望能夠在通用的行業去配置對他們來說最合適的,從超大規模用戶處汲取經驗,再把它們應用到其他的行業當中。
無獨有偶,趙帥認為,“我們應把開放的理念帶入多個行業,而不是只局限在大規模數據中心,因為大規模數據中心是應用的先鋒,但是更多的應用場景需要讓它在行業里面去落地。而作為OCP的核心廠商,按照浪潮信息目前的體量,前面已經沒有引路人了,這個時候我們就必須要用一個更加開放的心態,因為開放意味著有大量嶄新的技術、新的idea在這個團隊和社區里出現,從而讓更多的先進技術快速的產業化落地到行業。在這個過程當中,我們在引領產業發展和技術創新的同時,賦能采用開放標準的企業始終在行業中保持自己先于業內3-5年的領先優勢。”
以液冷為例,目前,中國的液冷應用是全球領先的,究其原因,國內基本上六大行,通信頭部企業代表都參與到了開放標準的制定,大家均可用,并且是公開的,只有這樣,才快速推動了液冷的產業化,真正讓液冷進入千行百業。
寫在最后:眾所周知,從最早的完全垂直封閉的大型機到統一RISC和Unix標準的小型機,再到x86和開放架構服務器,開放計算已經成為不可逆的趨勢。而如今AI的爆發,從最開始的Caffe,到pytorch、Paddle、LIama、源等都是開源推動,可以說也是開源開放的勝利。
展望未來,開源開放無疑是AI創新的核心動力,OCP和OCTC兩大開放組織在過去一年中,以“破壁”、“開放”的態度共同推動開放計算的廣泛應用,構建全球化的開放協作平臺,通過數據中心產品技術協同創新、知識產權成果共創共享、標準規范共建等,加速行業數智化、綠色高效發展的事實,讓我們相信,開放計算勢在AIGC時代大有可為。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.