來源:獵云網
6月7日-8日,2025全球人工智能技術大會(GAITC 2025)在杭州舉辦。
此次會上,中科曙光攜全棧AI基礎設施多項核心成果深度參與,并攜手中國人工智能學會成功舉辦“大模型時代的AI基礎設施”專題活動。
在致辭中,中科曙光高級副總裁李斌表示,國產算力要實現突圍發展,從單點技術突破向體系化、生態化創新升級是必然趨勢。中科曙光在長期產業實踐中反復打磨形成全棧AI基礎設施軟硬件產品矩陣,圍繞算力的生產、聚集、釋放、調度與服務環節,加速各行各業智能躍遷。
今年是中科曙光成立三十周年,其發展歷程最早可追溯至上世紀九十年代國家863計劃支持的智能計算機系統主題專項,到2009年,公司開始研究開發GPGPU異構并行計算系統,成為國內最早推出異構集群的企業。
在過去的三十年中,曙光長期專注于高端計算領域,先后研制推出了9代高端計算產品,發展到今天,基本形成了從核心部件、計算系統到計算服務的AI產業鏈完整布局——“曙光AI基礎設施”。
據悉,“曙光AI基礎設施”是中科曙光在長期產業實踐中,反復打磨的全棧智能化轉型矩陣。
通過完善的產品布局,中科曙光橫向連接算力生產、聚集、釋放、調用、服務的各個環節,貫穿AI算力全鏈條,從而降低使用成本、高效賦能場景。
李斌表示,“曙光AI基礎設施”分為核心基礎、系統設施、服務平臺三層架構,每個層面都打造了業界領先的關鍵模塊能力。
在核心基礎層,以新一代國產AI異構加速卡打造軟硬協同優化能力,探索“算力優化+算法調優”新范式,性能總吞吐量提升120%。
在系統設施層,基于5A級智算中心、ParaStor全閃存儲、極致性能的加速服務器、浸沒式相變液冷等一系列產品加速產業融合。
在服務平臺層,依托曙光云、全國算力網、神璣大模型等承接各行各業AI需求、落地關鍵場景。
重構AI計算基礎設施,打造堅實算力底座
AI大模型的爆發觸發全球算力需求的指數級增長,國產AI算力行業迎來發展機遇,同時也面臨能效、成本、生態、技術封鎖等諸多挑戰。響應時代之需,打造貫穿AI算力全鏈條的軟硬協同基礎設施是當前發展的關鍵之舉。
中科曙光總裁助理、智能計算產品事業部總經理杜夏威指出,大模型創新正在加快改變AI算力結構,國產GPU加速卡迎來重大機遇,實現芯片-算法-模型深度耦合,已成為AI基礎設施的重要創新方向。為此需要聚焦三大能力建設:一是建設面向業務場景的全棧軟件,自底向上逐層完善軟件棧覆蓋,降低國產芯片與用戶業務整合的門檻;二是圍繞模型性能特性建立正向優化機制,結合芯片架構深入分析與測試,形成算法、算子、庫、運行時的“貫穿式”優化鏈條;三是推進大模型行業賦能,協助客戶解決大模型集成“最后一公里”問題,促進國產算力高效應用。
故而,多年來中科曙光針對國產GPU加速卡,先后研發從底層的GPU開發工具套件,到中間的人工智能基礎軟件系統DAS,再到靠近上層的人工智能應用平臺DAP,再到今年2月推出了端到端全棧AI加速套件——DeepAI深算智能引擎。
據悉,結合國產GPU加速卡的通用架構和全精度優勢,DeepAI深算智能引擎集成超過2000個算子,對標CUDA的算子覆蓋度超過99%,覆蓋AI訓練、AI推理、AI4S和科學計算等場景。
此外,該引擎還具備生態全面兼容、極致性能優化、AI高階功能集成、開源與快速迭代的能力。
目前,中科曙光以DeepAI深算智能引擎為核心的相關產品方案,已經進入眾多關鍵行業,支撐中國氣象局、深圳紀委、中國電信天翼云、PICC人保財險、中石化物探院、上海市皮膚病醫院等客戶實現應用落地。
速度革新與容量革命,加速AI存儲新范式
大模型訓練推理過程不僅是AI計算密集型應用,也是數據密集型、IO敏感型應用。隨著數據的流動,圍繞數據采集、數據準備、模型訓練、模型推理和數據歸檔,對存儲能力的要求更高,如高帶寬、低延時、高密度、低成本等。大模型不斷創新及其在智能駕駛、具身智能、AI4S、智算中心等領域的應用,對先進存力的需求持續增加。
曙光存儲副總裁張新鳳表示,曙光存儲作為中科曙光長期投入的核心技術方向,旨在為大規模計算提供大容量、高性能、高可靠的存儲服務,核心目標是最大化存儲介質性能并消除軟件性能瓶頸。
大模型時代的AI存儲架構正在重塑,曙光存儲團隊基于二十年的技術積累與行業經驗,正全力推動這一變革。
她透露,過去一年里基于“AI加速”需求,持續迭代產品技術打造“超級隧道”,不僅滿足關鍵用戶與新興場景對先進存力的極致需求,同時也引領了中國存儲行業的發展,助推AI基礎設施升級。
在此次大會上,曙光存儲首次提出的“超級隧道HyperTunnel”亮相,通過極簡交互、零鎖競爭和軟硬融合的核心理念,構建起高效、低時延的數據傳輸路徑。
在曙光存儲的兩大產品——分布式全閃存儲ParaStor、集中式全閃存儲FlashNexus中,“超級隧道”都有不同維度的技術實現。在AI訓練場景中,ParaStor系列可提供190GB/s帶寬及500萬IOPS,可將GPT - 4級別模型的訓練周期從3個月壓縮至1周,極致釋放AI潛能;FlashNexus通過億級IOPS、微秒級延遲的全球頂尖性能,極速支持AI推理決策。
而憑借此技術優勢,曙光的高性能高端存儲系統存儲在智算中心領域獲得了廣泛應用,包括支持業務涵蓋運營商、工業、政務和云計算等智算中心和大型平臺底層的高性能存儲系統。同時,也為部分公有云服務商替換了底層的高性能存儲系統重要領域。
當前,AI大模型企業如智源、智譜等均在曙光存儲上進行了大規模訓練迭代與優化。此外,智元機器人等具身智能客戶、多家造車新勢力喝傳統車企的在智能駕駛領域,包括新勢力車企及傳統車企,以及具身智能領域業務,曙光存儲都提供了底層的存力平臺支持。在科教領域,持續為西湖大學、華南理工大學、復旦大學等提供高品質服務教育+AI數據存儲解決方案。
據賽迪顧問最新發布的《2024中國分布式存儲市場研究報告(2025)》,曙光存儲位居中國AI存儲市場份額第一。
可信云+AI,護航大模型全程全周期應用
隨著數智化進程的加速,云、大模型、數據相關的安全風險與挑戰也與日俱增。傳統的云上加密方案一般都是在云外部署獨立的密碼設備及服務,不僅增加了額外的設備成本與網絡時延,而且無法滿足大模型訓練推理過程中,對硬件層、數據層、應用層的全方位、更高級的加密防護需求。
曙光云計算集團首席架構師王琪表示,近年來隨著AI大模型的推動,云計算行業迎來新一輪以智能算力為特征的算力基礎設施升級浪潮,總結起來,云智算服務將呈現“超大規模、多元生態、智能調度、服務變革、可信安全”的五大特性,為此,曙光云推出了“全棧可信、云中生智”戰略。
在云中生智,全棧智能方面,曙光云正在全面走向AI化,具體表現為:
一是曙光的全棧云、超融合云等云軟件以及大數據平臺、數據治理平臺,已經全面支持AI大模型的管理、部署、開發、應用,這個是面向服務和應用的,可以提供強大的AI所需的算力、算法、數據支持;
二是面向云平臺本身的運營,通過把云運營和AI技術相結合,通過智能分析和決策優化,提升運營效率、提升服務質量的同時還可以降低成本,比如在AI云運營、AI數據治理等領域已經有了很好的應用案例。這些變化目前都已經在50多個云中心完成升級。
在全??尚?、安全可靠方面,尤其是像政務云、私有云對安全可信的政策要求越來越高,曙光云通過芯云融合,充分利用國產x86處理器內置的密碼能力,將芯片內置的安全處理器作為云內整體安全可信體系的可信根。
據悉,面向安全敏感的政企客戶,這個技術能夠基于國密算法實現對云內各個層面數據的加密防護,實現從云平臺物理硬件到虛擬化、數據、網絡以及云上應用的閉環安全可信,打造立體密算,可以為大模型為代表的應用及數據提供端到端的安全防護,為云上用戶筑牢可信可控的安全屏障。
接下來,曙光云將繼續深度融合AI大模型算法,打造高質量數據集,為政企客戶提供一站式提供算力服務、數據服務、AI大模型管理、訓練、推理、智能體開發與編排以及開放API的全流程服務,并借助云原生安全機制確保全流程的安全可信,和業界合作伙伴一起,共同建設“全棧智能、安全可信”的云計算生態。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.