5月14日,美國商務部工業與安全局(BIS)發布一系列細則,其中警告使用中國先進計算芯片的企業,可能違反美國出口管制規定,并有可能受到美國商務部的處罰。而按照美國BIS的出口管制分類編號(ECCN)3A090的條件要求,昇騰系列芯片均位列其中。
一直以來,美國都將科技領先作為全球領導地位的核心支撐,但中國科技領域的崛起明顯讓美國感受到了重大威脅。
因為在一個月前,華為剛剛宣布推出CloudMatrix 384,這是一個由384張卡組成的超節點,可提供高達300 PFLOPs的密集BF16算力,接近達到英偉達GB200 NVL72系統的兩倍。
如果說單卡的升級是在AI算力上單點創新,那么華為則通過系統工程能力的創新,形成了系統化的突破。這意味著華為有能力通過垂直整合,大幅降低成本提高效率。
01
從單點突破,邁向系統級創新
《系統論》表明,計算機生態是一個完整的系統,它的每一個組成部分都應該協同發展,單獨某一項技術的飛躍,并不能帶來整個計算機系統的提升。
單點創新解決關鍵部件“頭疼醫頭,腳疼醫腳”的問題,但并沒有解決整個技術體系自主創新的系統性問題。
昇騰在單點創新上已經非常出色,但單點芯片性能再強,若缺乏高效的互聯架構、散熱設計、軟件優化和生態支持,也無法充分發揮算力的最高價值。
而在網絡層面,超節點的MatrixLink服務,可以將單層網絡升級為兩層高速網絡,其中一層是超節點內部的ScaleUp總線網絡,確保超節點內384卡全對等高速無阻塞互聯,卡間超大帶寬2.8T,納秒級時延。
另一層,則是跨超節點間的ScaleOut網絡,可支持微秒級時延,資源彈性擴展,最大支持128k組網規模。同時,基于全局拓撲感知的智能調度算法,對于流量沖突,可規劃最佳流量路徑,確保無阻塞交換。并以此實現了“以網強算”。
另外,傳統方案中的GPU卡顯存和算力綁定,要獲取更多的內存,就必須購買NPU,造成算力浪費。對此,華為云推出了業界首創的EMS彈性內存存儲, 以EMS替代NPU中的顯存,使得首Token時延大幅降低,同時將原來在NPU中進行的KV計算卸載到CPU和EMS中,使得系統吞吐量提升100%以上。做到了“以存強算”。
不難發現, CloudMatrix 384的誕生,在算力層面絕不是硬件上的簡單堆疊,而是通過“以網強算”和“以存強算”這樣的核心技術突破,讓每一分算力都更具價值。
這也正是美國所擔憂的,系統級能力能繞過單點技術封鎖,形成自主創新的強大算力。而在AI推理盛行的當下,CloudMatrix 384的價值還遠不止于此。
02
系統級創新
做數字中國的算力底座
我們知道,MoE(混合專家)大模型,通過將任務分配給多個專家子模型顯著提升推理效率,降低了計算成本,同時保持了模型性能。
DeepSeek又通過優化MoE架構的專家路由機制,提升模型推理效率,同時降低計算成本,使MoE更適合大規模部署。也讓MoE在大模型時代更具競爭力,成為高效AI推理的重要解決方案。
可以說,更高的MoE“親和力”代表了在AI推理的市場中具備領先的優勢。而這恰是 “超節點”的重要設計細節之一。
傳統模式采用是“單卡多專家”的小作坊模式,且MoE通信基于傳統通信協議,整體性能低,計算時間漫長。而昇騰云的超節點模式則實現“一卡一專家”,基于專家并行處理,通過內部高速總線通信,匯聚請求到指定專家處理,同時還有多余的卡可以用來做熱備,可以復制做負載均衡。這就像是大工廠模式,單卡的計算和通信效率都得到大幅提升。
當然,強化推理端的能力,并不意味著在訓練端不強。
反而“超節點”支持“朝推夜訓”,通過訓推共池和靈活調度實現朝推夜訓,白天進行模型推理,晚上閑時進行模型訓練,提升超節點算力資源利用率,幫助企業避免算力閑置。
基于“朝推夜訓”的特性,昇騰云也會推出訓推共池方案,訓練推理作業共用一個專屬資源池,支撐提前劃分訓練、推理邏輯子池,通過邏輯子池動態配合調整,實現訓推資源時分復用,助企業提升算力資源利用率。
“超節點”晝夜不休的“上強度”,很多人也有這樣的疑問:大集群意味著運營運維復雜,難度高,那么穩定性是不是足夠可靠?實際上,“長穩可靠”也恰是昇騰云的核心優勢之一。
目前,昇騰云腦已實現了全棧故障感知、診斷與快速自動恢復。比如在故障感知方面,通過靜默故障感知技術和算法,主動探測硬件進行功能或性能測試,根據測試結果及時發現并隔離性能衰減的“慢節點”,基于變化趨勢,預測硬件的潛在故障風險,提前進行隔離或更換。硬件故障感知率從40%提升至90%;而在診斷與自動恢復方面,昇騰云腦全棧故障知識庫,覆蓋95%常見場景,一鍵故障診斷準確率可達到80%,大大縮短網絡故障診斷時效。配合 “三層快恢技術” ,實現萬卡集群故障10分鐘恢復的效果。
客觀地說,CloudMatrix 384這樣的系統化創新,其本質并不是單純為了站上技術的“巔峰”,而是要在企業實際的應用場景中發揮算力的價值,這才讓“超節點”令人肅然起敬。這也代表著CloudMatrix 384所有展現出來的技術細節,都是在客戶真實的業務場景中體現出來,而非實驗室的數據。
這份實打實的系統化創新,才稱得上是能扛起數字中國建設的算力底座。
03
超節點的啟示:“陪跑”到“領跑”
CloudMatrix 384超節點的突破,標志著中國已從“單點突圍”邁向“系統創新”的新階段。更深層意義在于:系統級創新并不是簡單技術整合,在其背后是核心技術、工程化能力、場景化能力的集大成,它是對自主技術體系的全新定義,更具普惠價值和戰略韌性。
在性能領先方面,基于CloudMatrix的超節點集群通過系統性的架構創新,在算力、互聯帶寬,內存帶寬等方面全面領先。同時,通過新型高速互聯總線,打造成一個超級云服務器,CloudMatrix384超節點可提供高達300 Pflops的算力規模,比業界同類產品領先67%。甚至有有企業測試后表示,兩個超節點可媲美現有的數千張GPU卡。
而在AI普惠方面,超節點更具備“即可即用”的特征。通過昇騰云服務,資源按需獲取、按使用計費,隨時享受最新的算力和技術,實現即開即用,讓更多的企業和開發者能夠享受到超節點帶來的高穩定性和高可靠性。
據悉,目前CloudMatrix已經在華為云CloudOcean的3大節點:烏蘭察布、貴安和蕪湖上線。三大數據中心之間,華為云的光纖骨干網支持百TB級的帶寬互聯。同時,10毫秒時延圈覆蓋了全國19個城市群,全國主要流量高地城市都能在10毫秒之內訪問超節點資源。
當技術封鎖遭遇系統級創新,規則的枷鎖正在被逐漸打破。CloudMatrix 384超節點的意義并不止于一場算力競賽,它標志著中國的自主創新,不僅能夠“陪跑”,也能走向“領跑”。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.