2023年,人工智能實現了破圈式的發展。ChatGPT引爆全網,刷新人們對人工智能的認識,之后大模型進入集中發布期,已拉開“百模大戰”的序幕。
如果說ChatGPT正一路狂飆,那么它一定需要一條“高速公路”,而這條“高速公路”名為“AI算力”。中國工程院院士鄭緯民曾多次公開表達一個觀點:“得算力者得未來,人類已經進入算力時代。”
智算中心作為信息基礎設施的重要組成部分,為快速增長的人工智能算力需求提供必不可少的基礎支撐,在數字時代承擔著重要使命。實際上,當前的智算中心相較以往已發生了巨大變化。新時期的智算力基礎設施怎么建?在2023人工智能計算大會上,智算中心與算力服務分論壇上,來自中國信通院、浪潮信息以及北京、浙江、江蘇、安徽等智算中心建設先行區的專家們分享了新思路、新實踐、新范式。
從算力時代到智能算力時代
算力是承載人工智能應用的基礎,而智能算力規模已經超過通用算力。從需求層面看,2022年,中國智能算力規模達到268百億億次/秒(EFLOPS),已經超過通用算力規模。
從算力時代再到智能算力時代,如何看待當前的算力基礎設施?應祛魅歸真,正確認識智算中心建設的發展方向。
中國信通院云計算與大數據研究所數據中心部副主任吳美希在分論壇上表示,以前大家都在講數據中心,現在更多在講算力中心。以前講的算力更多是狹義的算力,即服務器輸出的計算能力。現在所提的算力是更廣義的算力,包含了計算力,運載力和存儲力,即綜合算力的概念。大模型時代的算力供給,與云計算時代的算力供給,存在很大的差異。
中國電信集團北京分公司算力中心運營部副總經理紀葉直言,ChatGPT的成功指明了大模型是未來AI發展的方向,當下正在從通用大模型向行業大模型快速演進。大模型需要大算力,大算力要發揮出作用需要在智算能效、算力網絡、智算基礎三個方面發力。智算能效主要是芯片和平臺;算力網絡又分為三個子部分,分別是DC內、DC間和南北向的網絡。網絡既有高速的無損網絡,又包括彈性帶寬等;智算基礎是要把傳統的IDC向新興的AIDC遷移和改造。
實際上,當前的智算中心相較以往已發生了巨大變化。《智能計算中心創新發展指南》指出,智算中心建設需要結合建設基礎、當地或區域產業特色,分類引導施策,改建并行,發展與數字經濟相適應的智算中心。在日益復雜的AI計算場景下,智算中心應該兼容適配更多技術體系,通過開源、開放的方式建立可兼容底層硬件差異的異構開發平臺,突破異構算力適配、異構算力調度等關鍵技術,加速基礎軟件、商用軟件和開源軟件的生態構建。
四步走,讓智算中心“建好用好”
智算力的規模化發展和AIGC的火爆,帶來了智算力需求的爆發式增長。浪潮信息人工智能與高性能產品部高級架構師師宇清表示,AIGC算力需求暴增的背景下,智算中心硬件架構正在發生變化,智算中心需求的多元化趨勢也正在增強。同時,在國家指導和行業要求下,智算中心的節能降耗已經迫在眉睫。
如何建好、用好智算中心?浪潮信息提出,應以應用為導向,以系統為核心,通過智算中心的生產算力、聚合算力、調度算力和釋放算力四大作業環節入手,構建多元、開放、高效的智算中心。
在生產算力方面,以應用為導向,構建多元算力的架構,浪潮信息推出了新一代的多元算力系統,作為整個智算中心的算力底座。浪潮信息早在2018年開始就著力于開放多元的AI算力平臺的設計,最新發布的G7多元算力平臺是業界唯一可以同時兼容SXM以及OAI 8卡全互聯、16卡全互聯和混合立方互聯系統拓撲的AI算力平臺,并且可以兼容多種國內外高端AI加速卡。支持用戶根據不同應用的需求,來選擇對應的算力芯片。
聚合算力方面,以智能存儲匯聚多元化智能算力。針對AI時代下的智算中心數據存儲需求,浪潮信息推出了新一代分布式融合存儲。通過協議無損互訪互通,可實現數據的即時共享;通過在統一存儲池上的技術突破與優化,實現性能、容量的近線性增長。實現一套存儲架構支持一個數據中心,滿足AI場景下的多類業務需求。
浪潮信息也一直在關注AI Infra層面的優化,開展了一系列的工作,將浪潮信息最新發布的OGAI智算軟件棧引入智算中心方案,支撐智算中心算力調度、算力釋放。
調度算力方面,結合OGAI中的PODsys、智算OS和AIStation軟件平臺,可以快速實現算力部署、多元算力的接入和納管,同時提供智算中心的基礎運營能力。其中在算力集群部署方面,開源了業界首個AI算力集群系統環境部署方案PODsys,來幫助大家更快更好地部署AI集群。在大規模訓練的任務保障方面,從算力調度平臺層實現了自動化的斷點續訓,可以自動檢測計算異常,并在5分鐘內快速恢復異常中斷的計算任務,從而保障大模型訓練的長時間穩定運行。在多元算力接入方面,浪潮信息也開發了標準化、模塊化的芯片接入方式,已穩定接入超過40+芯片,芯片接入工作量減少90%。
釋放算力方面,由OGAI智算軟件棧的模型工具YLink和模型多模納管MModel平臺來實現。 YLink提供了一系列的數據清洗工具以及數據清洗工具整體工作流,可以將整體清洗時間大幅度壓縮,1PB的數據清洗時間從業界平均30天壓縮到15天以下。多模納管MModel的平臺可以兼容業界主流的大模型,包括開源大模型,元腦生態大模型及用戶自己訓練的私有大模型等。支持自動化的對比評測和人工評測,模型評測效率提升100%,幫助用戶更好地管理和評測多個大模型。
浪潮信息認為,智算中心不僅是算力基礎設施,還應該是算法基礎設施。人工智能算法正面臨著豐富化、專業化和巨量化的挑戰,智算中心應通過提供預置行業算法、構建預訓練大模型、推進算法模型持續升級、提供專業化數據和算法服務。浪潮信息將以自研的“源2.0”大模型為主體,構建算法基礎設施,在智算中心提供完全開源的不同規模的模型以及高質量的訓練數據集供智算中心用戶使用,讓更多的用戶享受普適普惠的智能計算服務。
打造智算中心建設的“燈塔”
如今,計算力就是生產力,智算力就是創新力,已經成為產業共識。通過大力發展智算中心新基建,為國內大模型創新發展以及AI應用創新提供了一片沃土。
智算中心的作用類似高鐵,通過集聚數據、人才、算法等數字經濟生產要素,賦能不同行業的智能化轉型,推動數字經濟高質量發展。在國家統籌規劃下,已有超過30個城市在規劃和建設人工智能計算中心。
例如,位于宿州市的淮海智算中心,其是承接整個長三角甚至全國算力的承接環境,整個項目計劃建設300PFLOPS。2025年,宿州市的AI算力規模要達到2000P。長遠規劃要達到4000P的規模;位于臺州的浙東南智算產業園,設立的目的是支撐臺州本地數字化產業的發展和集聚,去更好地支撐智能制造、醫藥開發、智能駕駛等行業。整個產業園項目總投資額38.2億元,未來將會設立兩支配套產業基金去幫助產業園相關企業的發展。
各地智算中心建設風起云涌,無疑是要迎接人工智能等數字技術的風口,為區域數字經濟產業生態聚集人氣。而一個個智算中心的建成,就像一個個燈塔,為今后的智算中心建設和人工智能產業的發展,指引了方向。
隨著人工智能產業快速發展,企業對智算力的需求越來越大,未來將有更多的城市進一步投入到智算中心的建設當中,通過應用導向、產業構建、生態合作等多重手段相結合,不斷筑牢AI“新基建”,激發人工智能基礎能力和原始創新能力,推動人工智能的快速迭代與產業變革。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.