在今天,一個中國AI大模型想要完成從訓練到推理的過程,需要在算力之路上走過九九八十一難。
首先,它會面臨英偉達算力卡被禁售、被降級的持續尷尬,算力獲取極其昂貴且困難;接下來,它將面臨模型參數過大,單卡算力無法支持,需要集群式算力的難題;再進一步,大規模AI計算集群故障頻繁,恢復緩慢,極大拖延了訓練效率;在推理環節,大模型還需要提升分布式推理能力,提升應用競爭力。
大模型們就像一枚枚棋子。它們在算法層面勇往直前,腳下卻沒有屬于自己的算力棋盤。即使如此,這片土地依舊涌現出了耀眼奪目的大模型創新。但我們也不禁會想,如果擁有堅實有力,且沒有外部風險的AI算力底座,AI技術的可能性又將被如何書寫?
在HDC 2025,我看到了解答這個問題的方法。華為常務董事、華為云計算CEO張平安宣布基于CloudMatrix384超節點的新一代昇騰AI云服務全面上線,為大模型應用提供澎湃算力。
基于CloudMatrix384超節點的新一代昇騰AI云服務,本質上是對固化的AI算力形態進行了改變。它改變了以單卡為中心的AI算力供應模式,直擊了中國AI算力自主化的需求,并找到了云服務這種最契合大模型推訓的算力獲取方式。
384個AI計算單元,連成了一片“龍鱗”,透過它的反光,看到的是中國AI算力用技術改變規則的能力和決心。
讓我們沿著新一代昇騰AI云服務從發現困局,再到技術破局,進而到云服務閉環與賦能行業應用落地的邏輯,去看看AI算力的八十一難,如何變得蕩然無存。
從深度學習技術興起,AI算力作為一種專項需求被提出,產學各界預言了中國的AI算力需求必然會呈現出巨大矛盾。這種矛盾在大模型時代得到了史無前例的爆發。
一邊是中國AI產業在算法、應用側的創新層出不窮,AI在社會經濟中扮演的地位愈發重要;另一邊是我們始終沒有筑起自己的AI算力底座,算力獲取嚴重依賴外部供應。這種供應形態發展到一定程度,就必然會形成體系軟肋與發展局限。就像把自己的AI棋子,放在別人的算力棋盤上,當其他人想要掀翻棋盤的時候,我們可能沒有任何辦法,當我們有了更多棋子,原有的棋盤可能也擺不下。
從過去、現在、未來的三重要素看,中國AI算力都必須走出一條自己的新路來。
1.來自過去的困局:AI算力的外部限制。
自1996年《瓦森納協定》簽訂以來,美國長期主導了對中國的芯片出口限制。AI時代到來后,AI算力成為科技鐵幕的核心焦點。近幾年,美國持續加碼對中國的AI算力限制,曾經占據中國AI算力市場份額超過95%的英偉達GPU,不斷在被禁與推出閹割版的徘徊中游蕩。這讓難獲取與昂貴,成了AI算力的代名詞。
2.來自今天的挑戰:大模型崛起帶來的算力需求。
把目光放到中國市場本身,會發現算力矛盾依舊突出。伴隨著DeepSeek為代表的國產大模型崛起,以及AI Agent等應用爆發。中國大模型需要更加強大的訓練推理能力作為支撐已成定局。
比如說,AI Agent的技術邏輯是大模型決策再調用外部工具進行處理,這個國產時延考驗。想要讓AI Agent真正走向大規模應用,就需要CPU與NPU之間強大的高速通信能力。這些算力的實現,直接決定著AI應用的發展。
3.來自未來的焦慮:為AGI未雨綢繆。
更為關鍵的是,AI大模型還在快速發展。未來我們可能會迎來訓練參數量達到百萬億的大模型,這將導致AI算力需求也被百萬倍提升。與此同時,自動駕駛、元宇宙等方向的不斷創新,讓復雜的多元融合計算逐漸成為主流。我們必須讓算力底座預先發展,才能支撐起關于未來近乎無盡的AI想象力。
想要解決這些困境,我們會發現一個核心點在于,依賴外部供應的AI算力單卡絕不可取。必須將算力資源進行集群化、系統化的整合建設,用整體優勢消弭個體劣勢,才是中國AI算力的取勝之道。
當然,想要實現這個目標技術難度是超乎想象的,好在我們也進行了充分的準備。比如華為在網絡方面的數十年積累,可以打破大規模集群式計算的通信瓶頸;昇騰的持續建設,為自主化AI算力提供了支撐;華為云在大規模算力服務提供與下一代云基礎設施平臺的積累,為打造超節點提供了能力底座。
這些要素融合在一起,讓華為有機會打破傳統的馮諾依曼架構,實現“一切可池化”“一切皆對等”“一切可組合”的CloudMatrix384超節點,進而將其通過云服務落地千行萬業。
AI算力的多重困局,由此找到了從底層改寫規則的可能。
想要破局單卡為中心的AI算力困局,就需要向多卡集群方向努力。
用集約式計算提升算力資源利用率,搭建更符合大規模計算需求的超節點。這些思路在業界一直存在,但CloudMatrix384超節點的不同之處在于,其通過計算、存儲、網絡等諸多技術的協同創新,加上對傳統計算架構的徹底顛覆,實現了“最強AI服務器”的打造。
CoudMatrix384是將384個昇騰NPU和192個鯤鵬CPU,通過高速網絡互聯總線連接起來,組成了一臺384卡的AI計算機。中國文化講求“合”的力量,這種文化基因在CloudMatrix384有著充分的展現。借用集約式計算的形式,CloudMatrix384超越了硬件與芯片工藝的限制,同時通過軟硬協同、池化架構和動態算力調配,實現了有效算力的大幅提升。根據相關數據,CloudMatrix384能夠實現300PFlops的算力規模,相比英偉達NVL72提升67%。它的出現能夠從底層技術上解決一系列迫在眉睫的算力技術難題,比如說:
1.分布式推理需求如何滿足?
在DeepSeek爆火之后,MoE模型混合專家大模型成為主流。而混合專家模型的一大特點就是十分考驗計算集群的分布式推理能力。CloudMatrix384可以通過超節點的分布式推理引擎,大幅提升單卡的計算與通信效率。單卡吞吐量能夠較非超節點提升近4倍,躍升至2300Tokens/s,并支持“一卡一算力任務”,將算力有效使用率(MFU)提升50%以上,并且超節點可以實現MoE模型的“一卡一專家”,一個超節點可以支持384個專家并行推理,極大提升效率。
2.集群規模如何突破?
伴隨著大模型的發展,業界對AI算力的需求正在不斷擴大,開始呈現出萬卡集群向五萬卡、十萬卡的趨勢發展。滿足對AI算力規模的需求,是超節點的當務之急。
為此CloudMatrix384通過MatrixLink全對等互聯,構建了高速智能網,再加上集群智能調度能力,保障了計算機群的性能無損,實現萬卡集群線性度高于95%。在此基礎上,CloudMatrix384最高可以將432個超節點進行級聯,形成16萬卡的AI計算集群,提供10萬PFlops級別的算力,從而滿足萬億級別的模型訓練。由此一來,CloudMatrix384成功大幅打破了最大規模計算集群的邊界,充分滿足未來很長一段時間內的大模型演化。
3.計算資源如何實現最優?
對于一線AI開發者與行業智能化用戶來說,AI算力的問題不僅在于稀缺,還在于浪費多、效率低以及運維復雜。為了能夠實現將每一比特AI算力都投入到有效的任務處理中,CloudMatrix384可以支持針對不同推訓場景,按邏輯超節點來劃分資源,從而實現像搭積木一樣給AI任務分配算力,讓算力資源“一切可組合”,意味著用戶的所有資源投入都得到充分發揮。
除此之外,CloudMatrix384超節點還支持40天長穩訓練,10分鐘快速恢復。讓大模型推訓過程中的種種卡點、堵點一掃而空。
在此之前,張平安提出:“CloudMatrix384超節點標志著算力競爭從單點技術突破走向系統架構創新。通過對復雜技術與資源的整合與協同,匹配全面智能時代的企業創新需求,并引領中國 AI產業生態的全面進步。”
有了能夠改變AI算力底層邏輯的技術能力,接下來就是需要將CloudMatrix384超節點的技術優勢向產業釋放。而云服務,就是最好的方向。
CloudMatrix384超節點在技術邏輯上的突破,是打破了單點算力限制,實現算力的彈性、大規模可用,而這種技術特性與云計算的產業特性正好相符。企業在云上獲取計算資源,也是為了實現算力規模的自由拓展以及計算資源的靈活匹配。另一方面,AI大模型推訓也有彈性算力需求的特征。
將超節點的技術特性-云計算的服務特性-大模型推訓的需求特性,三者關聯起來看,不難看出超節點想要在產業環境中發揮最大價值,走向云計算平臺就是它的最好歸宿。在云上獲取CloudMatrix384的計算能力,也是最適合大模型應用的算力服務獲取方式。
中國文化中說龍從云現。超節點的“龍鱗”,需要在云計算中展露崢嶸。為此,昇騰AI云服務早已做好了準備。
自發布以來,昇騰AI云服務的體系不斷成熟,全球化布局不斷完善,至今已經被全球1300多家企業選擇。在去年9月,華為云發布了AI-Native的云基礎設施CloudMatrix。在HDC 2025,華為云正式發布了基于CloudMatrix384超節點的新一代昇騰AI云服務。這意味著超節點超大規模算力、超強分布式推理能力、最優計算資源等一系列具有顛覆意義的算力突破,都可以基于昇騰AI云服務來獲取和使用。
為了滿足更加多元、復雜的AI需求,華為云還升級了CloudMatrix AI Native基礎設施,使新一代昇騰AI云服務更加完善好用。具體而言,華為云CloudMatrix在硬件平臺實現了芯片和系統工程的進步。在軟件層面,則通過重構協議,優化算法、應用融合和調度智能化等方式突破系統性能的上限。
其中,分布式QingTian是CloudMatrix的核心底座。通過分布式QingTian架構,華為云在超節點架構中首次實現了網絡IO設備池化和內存資源池化。網絡IO設備池化可以通過分布式QingTianBox智能硬件,將網卡、存儲等IO設備解耦重組,讓用戶像調用本地資源一樣使用全局IO能力。內存資源池化則基于華為云創新的Memlink-direct技術實現內存跨主機直接共享,從而打破“單機內存墻”,實現CPU/NPU與內存的彈性配比。
另一方面,計算集群間的網絡聯接能力已經成為制約計算效果的關鍵。華為云打造MatrixLink網絡技術,實現在CloudMatrix中達成重構組網、重構協議、重構通信語義、重構通信調度的網絡能力增強,提升大規模AI集群的計算效率。
與此同時,最新升級的盤古5.5大模型所代表的華為云大模型能力與MaaS服務,已經落地到30多個行業500多個場景,可以充分滿足企業用戶在模型層的智能化需求。
至此,華為云已經打造了包括算力、模型、AI基礎設施在內,完整、可用、可信賴,且突破以往產業邊界的AI能力。
新一代昇騰AI云服務不僅實現了為世界提供另一種選擇,還基于超節點的突破性與顛覆性,達成了為世界提供更好的選擇。
從超節點的技術突破,到新一代昇騰AI云服務的產業體系構建,AI算力底座這個宏大命題終于迎來了期盼已久的顛覆。正所謂“龍行有雨”,由此產生的計算變革,將直接惠及用戶與行業,進而加速AI技術的持續突破與經濟價值轉化。
從用戶視角來看,基于新一代昇騰AI云服務來獲取超節點算力,既是技術能力上的最佳選擇,也是企業價值上對最優選擇。
新一代昇騰AI云服務具有確定性的運營運維、容災備份等核心云服務能力,可以實現集群訓練故障支持1min感知,3min WR響應與處置,異常故障恢復時間小于10min。并且云服務開箱可用,能夠最大限度降低企業學習成本,同時還是最為經濟的AI算力獲取選擇。
而從行業視角來看,新一代昇騰AI云服務在各個關鍵領域都展現出了典型且充分的行業實踐,證明了自身融入行業智能化需求的價值與可行性。
在資訊領域,新浪新聞的“智慧小浪”是以開源大模型和微博知微大模型為底座模型,深度融合了通用數據以及新浪獨有數據的AI產品。基于新一代昇騰AI云服務,“智慧小浪”構建了統一的推理平臺,實現了推理交付效率提升超過50%,模型上線速度成倍加快,NPU利用率提升超過40%等一系列價值升級。
在AI領域,硅基流動基于昇騰AI云服務,每天可以為用戶提供千億token服務,實現了用戶3個月期間翻倍。面壁智能使用CloudMatrix384超節點,讓他們小鋼炮模型的推理業務性能得到了2.7倍提升。
在科研領域,中科院基于昇騰 AI云服務自研了訓練框架,快速構建中科院 AI4S 科研大模型,打造智能科研平臺。
在互聯網領域,360打造的中國首個“超級搜索”納米AI搜索,實現數十家大模型廠商的上百款大模型的高效協作,對AI算力有極大需求,也已開啟了CloudMatrix384超節點的測試。同時,昇騰 AI云服務還為新浪的微博智搜帶來了搜索能力明顯提升、回答能力顯著增強等體驗升級。
從客戶價值到行業價值,新一代昇騰AI云服務已經可謂是澤被原野。至此,一個“用系統架構取代單點優勢”的想法,凝結成了CloudMatrix384超節點的復雜技術創新,打磨成了新一代昇騰AI云服務的產業通道,最終落地成了千行萬業的AI實踐。
AI算力陳舊的規則困局,終于迎來了變革的開啟。
幾年之前,有人說AI處在最好的時代,同時也是最壞的時代。最好是因為中國有極佳的AI創新氛圍,有算法、數據、人才、市場的種種優勢,AI技術在這里一日千里。
最壞是因為中國AI所搭建的高樓大廈,都處在地基不牢,隨時有坍塌風險的境地里。沒有自主且強大的AI算力,一切努力都像鏡花水月。
經過多年的沉潛與錘煉,以華為為代表的科技企業,選擇正視、思考,并去解決這個問題,在巨大的投入與漫長的積累后,最終找到了破局方案,并達成了CloudMatrix384超節點這個足以改變AI算力規則的變革點。通過新一代昇騰AI云服務,這個變革點將融入千行萬業,融入中國AI算力新的底層規則。
或許不久后我們將發現,AI算力的大環境得到了改變甚至顛覆,新的定義是:這是變革的時代,這是我們的時代。
在不久之前,任正非的一篇采訪廣為流傳。他說:“我們單芯片還是落后美國一代,我們用數學補物理、非摩爾補摩爾,用群計算補單芯片,在結果上也能達到實用狀況。”尤其在AI芯片領域,他認為用疊加和集群等方法,計算結果上與最先進水平是相當的。
這個判斷并非對未來的展望。我們了解新一代昇騰AI云服務之后會發現,這場變革已經實現。
對于我們來說,AI算力正在從高懸頭上的制約,變成動力的來源,變成撬動想象力的支點。
AI時代,要聽龍鳴。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.