沖破英偉達(dá)的算力封鎖。
作者|田思奇
編輯|栗子
2025年春天,AI正悄然換擋。
從訓(xùn)練到推理,行業(yè)正聚焦于更加理性、務(wù)實(shí)、但競爭也更為激烈的效率較量。
這場轉(zhuǎn)變背后是擁有160年歷史,最近又被頻繁提起的經(jīng)濟(jì)學(xué)悖論——杰文斯悖論(Jevons Paradox)。這個(gè)悖論認(rèn)為:當(dāng)某項(xiàng)資源使用效率提高后,其總消耗量非但不會減少,反而會因?yàn)樾枨蟊┰龆杆偕仙?/p>
換句話說,AI推理變得越便宜、越高效,人們就越無法停止對它的依賴。AI算力,也正在因?yàn)椤靶侍嵘倍瓉硇乱惠喰枨缶畤姟?/p>
一個(gè)更直接的較量是,整個(gè)AI算力行業(yè),向著突圍英偉達(dá)的封鎖邁出了重要的一步。
4月10日,華為云計(jì)算CEO張平安在華為云生態(tài)大會2025上公布了AI基礎(chǔ)設(shè)施架構(gòu)突破性新進(jìn)展——發(fā)布基于新型高速總線架構(gòu)的CloudMatrix 384超節(jié)點(diǎn),將目光鎖定一個(gè)關(guān)鍵命題——誰會在AI推理時(shí)代,成為更穩(wěn)健的算力底座?
1.訓(xùn)練退場,算力需求重構(gòu)
2023年底,DeepSeek-MoE模型橫空出世,許多AI公司的核心工程資源都從模型訓(xùn)練轉(zhuǎn)向推理優(yōu)化。這一變化背后,正是杰文斯悖論在AI行業(yè)的再現(xiàn)。
「甲子光年」認(rèn)為,這種變化不僅是一種經(jīng)濟(jì)現(xiàn)象,更是一種技術(shù)范式的根本切換。過去衡量AI進(jìn)展的核心指標(biāo)是參數(shù)規(guī)模和訓(xùn)練成本——誰能訓(xùn)練出萬億參數(shù)大模型,誰就站在金字塔塔尖;但在推理時(shí)代,這種衡量邏輯正在被重新定義:真正能落地、可用、可控、可持續(xù)運(yùn)行的AI系統(tǒng),才是企業(yè)需要的“生產(chǎn)力工具”。
這一變化也重新定義了AI巨頭的技術(shù)路線。
作為全球GPU市場的主導(dǎo)者,英偉達(dá)依然牢牢掌控著AI核心資源的分配權(quán)。在2025年3月的GTC大會,彰顯出它試圖以更極致的硬件堆疊與生態(tài)封閉性,延續(xù)自己的領(lǐng)先優(yōu)勢。
本次大會上,英偉達(dá)發(fā)布了代號Blackwell Ultra GB300的新一代AI芯片。該芯片配備288GB HBM3e高帶寬內(nèi)存,以及機(jī)架級液冷設(shè)計(jì),F(xiàn)P4算力達(dá)15PetaFLOPS。此外,英偉達(dá)宣布計(jì)劃于2027年發(fā)布Rubin Ultra NVL576架構(gòu),專為未來超大規(guī)模模型設(shè)計(jì)。
同時(shí),英偉達(dá)推出首款開源推理軟件Dynamo。在由GB200NVL72機(jī)架組成的大型集群上運(yùn)行DeepSeek-R1模型時(shí),Dynamo的智能推理優(yōu)化可將每個(gè)GPU生成的token數(shù)量提高30倍以上。
黃仁勛解釋稱,推理就是生成token,這對企業(yè)至關(guān)重要。生成這些token的AI工廠必須以極高的效率和性能建造。隨著最新一代推理模型能夠思考和解決日益復(fù)雜的問題,對token的需求只會增長。
憑借這些優(yōu)勢,黃仁勛在現(xiàn)場不斷強(qiáng)調(diào) “AI工廠” 這一概念,力圖將英偉達(dá)打造成為全球 AI 產(chǎn)業(yè)的核心樞紐。
圖片來源:英偉達(dá)
然而,這種近乎壟斷的發(fā)展態(tài)勢,已經(jīng)引發(fā)對英偉達(dá)競爭邊界的質(zhì)疑。「甲子光年」在GTC大會現(xiàn)場注意到,有媒體向黃仁勛提問:“英偉達(dá)正在轉(zhuǎn)變?yōu)橐徽臼?AI 解決方案提供商,你們正在進(jìn)入部分客戶的領(lǐng)域,如果在某些方面成為他們的競爭對手,他們會如何反應(yīng)?”
雖然黃仁勛強(qiáng)調(diào),英偉達(dá)是全球唯一一家與所有AI公司合作的AI公司,但他們的目標(biāo)很明確:將整個(gè)AI產(chǎn)業(yè)鏈進(jìn)一步“固化”在英偉達(dá)的CUDA體系和GPU硬件生態(tài)之內(nèi)。
「甲子光年」總結(jié)發(fā)現(xiàn),英偉達(dá)所謂的AI產(chǎn)業(yè)主導(dǎo)權(quán),主要體現(xiàn)在三個(gè)方面:
硬件堆疊:通過持續(xù)推出超高性能AI芯片,如Blackwell Ultra和即將發(fā)布的Rubin Ultra NVL576,英偉達(dá)在AI硬件領(lǐng)域保持領(lǐng)先地位。
軟件生態(tài)控制:CUDA生態(tài)系統(tǒng)已成為全球AI計(jì)算的核心基礎(chǔ)設(shè)施,擁有超過600萬開發(fā)者,遠(yuǎn)超其他平臺。
全流程整合:通過“AI工廠”架構(gòu),英偉達(dá)將訓(xùn)練、推理、微調(diào)、部署全流程整合在其硬件平臺內(nèi),形成技術(shù)鎖定效應(yīng)。
這種模式的優(yōu)點(diǎn)顯而易見:性能極致、生態(tài)完備、開發(fā)便捷。然而,它雖然為AI領(lǐng)域的技術(shù)發(fā)展提供了強(qiáng)大動(dòng)力,卻也帶來了許多無法忽視的隱性成本。
首先,英偉達(dá)的硬件產(chǎn)品以其超高性能和精密工藝,吸引了大量高端客戶,但高昂的硬件成本和對功耗、散熱的嚴(yán)苛要求,使得許多中小型企業(yè)及部分發(fā)展中國家在AI基礎(chǔ)設(shè)施建設(shè)上面臨較大壓力。
尤其在推理時(shí)代,算力需求增長使得對硬件設(shè)備的依賴加劇,但是因?yàn)閮r(jià)格昂貴、技術(shù)復(fù)雜,許多企業(yè)部署AI應(yīng)用時(shí)不得不承擔(dān)極高的成本。這既限制了AI技術(shù)普及,也在一定程度上抬高了行業(yè)技術(shù)壁壘,加劇了英偉達(dá)與其他廠商之間的差距。
CUDA生態(tài)和“AI工廠”架構(gòu)形成“端到端的控制”,使得客戶從模型開發(fā)到生產(chǎn)部署均依賴英偉達(dá)體系。黃仁勛更直言,“AI工廠的最佳性能直接決定了客戶收益的百分比”,將算力供給與商業(yè)回報(bào)深度綁定。
因此,行業(yè)自然會萌生一個(gè)疑問:能否從架構(gòu)原理開始,建立一套不依賴封閉生態(tài)、同時(shí)又能支撐大規(guī)模AI推理的新體系,從而突破英偉達(dá)的算力封鎖?
而這或許,將引發(fā)一場更深遠(yuǎn)的產(chǎn)業(yè)變革。
2.中國破局的關(guān)鍵詞:超節(jié)點(diǎn)
中國面臨的現(xiàn)實(shí)則更加復(fù)雜。
隨著全球科技競爭日趨白熱化,以英偉達(dá)為代表的國際科技巨頭憑借先發(fā)優(yōu)勢,不斷構(gòu)筑并加高技術(shù)壁壘。在AI硬件領(lǐng)域,尤其是高端GPU方面,中國在很大程度上仍然依賴外部技術(shù)供應(yīng)。
這一現(xiàn)狀意味著,若單純沿襲英偉達(dá)的技術(shù)路徑,中國AI產(chǎn)業(yè)的發(fā)展將面臨諸多掣肘:過度依賴單一GPU供應(yīng)商,不僅會導(dǎo)致成本居高不下,更存在系統(tǒng)安全隱患,一旦外部供應(yīng)受阻,產(chǎn)業(yè)發(fā)展將陷入被動(dòng)困境。
而華為云最新公布的CloudMatrix 384超節(jié)點(diǎn)已經(jīng)正式在蕪湖數(shù)據(jù)中心規(guī)模上線,截止目前,這是國內(nèi)唯一正式商用的大規(guī)模超節(jié)點(diǎn)集群,可為千行萬業(yè)提供澎湃、穩(wěn)定、高質(zhì)量的算力支持,這一舉措也正在推動(dòng)中國AI產(chǎn)業(yè)突破算力封鎖困境。
不夸張地說,對于中國算力產(chǎn)業(yè)而言,這一次華為云CloudMatrix 384超節(jié)點(diǎn),可以算得上是世界級的創(chuàng)新突破。
不同于單點(diǎn)技術(shù)突破,系統(tǒng)級架構(gòu)創(chuàng)新突破的難點(diǎn)在于對復(fù)雜技術(shù)與資源的整合與協(xié)同,而這一架構(gòu)創(chuàng)新也更匹配全面智能時(shí)代的企業(yè)創(chuàng)新需求,也正在引領(lǐng)中國AI產(chǎn)業(yè)生態(tài)的全面突圍。
華為云構(gòu)建昇騰AI云服務(wù)的根基,是全棧自主創(chuàng)新的算力底座。
這一底座整合了算力、自研AI框架MindSpore、開發(fā)平臺ModelArts以及彈性云服務(wù),各組件緊密配合,軟硬協(xié)同優(yōu)化,將AI算力以標(biāo)準(zhǔn)化服務(wù)的形式輸出。
企業(yè)借助華為云,可便捷獲取即開即用的AI算力,無需自行搭建復(fù)雜的本地集群,極大降低了AI應(yīng)用的門檻和部署成本。
支撐這一服務(wù)體系的核心技術(shù),便是華為云自研的CloudMatrix架構(gòu)。在傳統(tǒng)通用云服務(wù)架構(gòu)逐漸逼近資源調(diào)度極限的背景下,CloudMatrix架構(gòu)創(chuàng)新性地重構(gòu)了算力的組織邏輯。其核心理念是從“堆芯片”走向“拼架構(gòu)”,通過 “一切可池化”“一切皆對等”“一切可組合” 的方式,實(shí)現(xiàn)了業(yè)界領(lǐng)先的性能和可靠性。
這一舉措打破了以往硬件單元相互孤立的局面,實(shí)現(xiàn)了資源的按需靈活組合與動(dòng)態(tài)調(diào)度,使得算力資源能夠根據(jù)不同的業(yè)務(wù)需求進(jìn)行高效配置,顯著提升了資源的利用效率。
作為CloudMatrix架構(gòu)中的基礎(chǔ)計(jì)算單元,超節(jié)點(diǎn)(SuperPoD)是這一架構(gòu)落地的物理實(shí)現(xiàn)形式。
圖片來源:網(wǎng)絡(luò)
在單節(jié)點(diǎn)規(guī)模方面,超節(jié)點(diǎn)打破常規(guī)限制,利用新型高速總線將原本獨(dú)立的單節(jié)點(diǎn)8卡昇騰服務(wù)器緊密互聯(lián),構(gòu)建成強(qiáng)大的單一超級云服務(wù)器。這一創(chuàng)舉使得算力規(guī)模實(shí)現(xiàn)了質(zhì)的飛躍,提升幅度高達(dá)50倍,達(dá)300Pflops,相比業(yè)界同類產(chǎn)品領(lǐng)先優(yōu)勢明顯,性能提升67%。
與DeepSeek現(xiàn)有的MOE結(jié)構(gòu)相比,超節(jié)點(diǎn)也展現(xiàn)出獨(dú)特的優(yōu)勢。
DeepSeek的MOE結(jié)構(gòu)是一個(gè)由眾多 “專家” 組成的團(tuán)隊(duì),每個(gè) “專家” 擅長處理特定任務(wù),在傳統(tǒng)8卡英偉達(dá)服務(wù)器上通過增加 “專家” 模塊來提升性能,類似于醫(yī)院增加不同專科診室與專家以接待更多患者。但這種方式在實(shí)際應(yīng)用中,部署過程極為復(fù)雜,如同搭建大型醫(yī)院需考慮科室布局、設(shè)備安置及人員調(diào)配等諸多復(fù)雜因素,任何環(huán)節(jié)出錯(cuò)都可能影響系統(tǒng)運(yùn)行效率。
而超節(jié)點(diǎn)采用全新架構(gòu)設(shè)計(jì),無需像DeepSeek那樣增加 “專家” 模塊,而是通過自身獨(dú)特架構(gòu)實(shí)現(xiàn)計(jì)算資源的高效整合與調(diào)度。它就像從建筑設(shè)計(jì)之初便充分考慮各功能區(qū)域協(xié)同運(yùn)作的現(xiàn)代化綜合醫(yī)療中心,各個(gè)科室間信息流通與資源共享順暢,無需額外復(fù)雜布局就能輕松應(yīng)對大量不同類型任務(wù)需求,尤其是在推理大模型應(yīng)用中優(yōu)勢明顯。
CloudMatrix 384超節(jié)點(diǎn)集具備“高密”、“高速”、“高效”的優(yōu)勢,通過架構(gòu)的全面創(chuàng)新,已在算力、互聯(lián)帶寬、內(nèi)存帶寬方面實(shí)現(xiàn)全面領(lǐng)先。
在有效算力提升上,超節(jié)點(diǎn)借助超高帶寬Scale - Up新型高速總線網(wǎng)絡(luò),實(shí)現(xiàn)了從 “傳統(tǒng)以太網(wǎng)” 到 “共享總線網(wǎng)絡(luò)” 的重大跨越,資源互聯(lián)帶寬提升10倍以上。超節(jié)點(diǎn)的內(nèi)存(HBM)帶寬達(dá)到1229TB/s,為業(yè)界的2.13倍。
硬件性能的大幅躍升,使得AI訓(xùn)練過程中的數(shù)據(jù)傳輸更為高效,模型能夠快速獲取所需數(shù)據(jù)進(jìn)行運(yùn)算,有效降低了訓(xùn)練出錯(cuò)概率。在斷點(diǎn)恢復(fù)方面,超節(jié)點(diǎn)表現(xiàn)突出,斷點(diǎn)恢復(fù)時(shí)間僅為10秒,而行業(yè)平均水平長達(dá)13分鐘。
可靠性上,基于CloudMatrix架構(gòu),昇騰AI云服務(wù)可助力大模型訓(xùn)練作業(yè)穩(wěn)定運(yùn)行40天,遠(yuǎn)高于行業(yè)平均的2.8天。同時(shí),昇騰AI云服務(wù)具備秒級故障監(jiān)控能力,可實(shí)時(shí)監(jiān)測系統(tǒng)運(yùn)行狀況,一旦檢測到故障,能在10分鐘內(nèi)自動(dòng)恢復(fù)訓(xùn)練作業(yè),而業(yè)界平均恢復(fù)時(shí)間為60分鐘。
軟件層面,昇騰云充分發(fā)揮自身深厚的技術(shù)積累和研發(fā)優(yōu)勢,持續(xù)優(yōu)化CloudMatrix架構(gòu)。通過不斷調(diào)整架構(gòu)設(shè)計(jì),使其與持續(xù)升級的昇騰芯片深度適配,實(shí)現(xiàn)了軟件與硬件的高度協(xié)同,極大提升了算力資源的管理與調(diào)度效率,進(jìn)而優(yōu)化了整體性能。這種軟硬件深度融合的創(chuàng)新模式,使昇騰云在AI硬件領(lǐng)域逐步構(gòu)建起獨(dú)特的競爭優(yōu)勢,有力推動(dòng)了中國AI產(chǎn)業(yè)的自主創(chuàng)新發(fā)展。
「甲子光年」認(rèn)為,在AI領(lǐng)域,真正提升AI效率的并非僅依賴某顆芯片的絕對性能,而是芯片、框架、調(diào)度器之間的協(xié)同效率。盡管在GPU通用性和高精度計(jì)算方面,英偉達(dá)仍處于行業(yè)領(lǐng)先,但昇騰云通過系統(tǒng)性工程創(chuàng)新,構(gòu)建了差異化競爭優(yōu)勢。
在昇騰云體系中,底層算力、MindSpore框架以及基于CloudMatrix架構(gòu)的調(diào)度器緊密協(xié)作。MindSpore框架針對昇騰芯片深度優(yōu)化,充分發(fā)揮芯片計(jì)算能力,實(shí)現(xiàn)了高效模型訓(xùn)練和推理;CloudMatrix架構(gòu)下的調(diào)度器則依據(jù)不同應(yīng)用需求,智能調(diào)度算力資源,確保資源合理分配與高效利用。
在特定AI場景,如邊緣推理中,昇騰云通過軟硬件協(xié)同優(yōu)化,展現(xiàn)出卓越的性能優(yōu)勢。邊緣推理場景對設(shè)備本地?cái)?shù)據(jù)處理速度、實(shí)時(shí)性和能耗控制要求極高。昇騰云針對這些特性,對模型進(jìn)行針對性優(yōu)化,減少數(shù)據(jù)傳輸延遲,降低能耗,有效滿足了邊緣推理場景的嚴(yán)苛需求。
此外,昇騰云重視單位功耗優(yōu)化,持續(xù)在低功耗條件下提供高效推理服務(wù),幫助廣大企業(yè)在控制成本的同時(shí),充分享受AI技術(shù)帶來的紅利。
這種精準(zhǔn)定位市場需求的優(yōu)化策略,使昇騰云在激烈的市場競爭中找準(zhǔn)切入點(diǎn),成功塑造差異化競爭優(yōu)勢,為中國AI產(chǎn)業(yè)在復(fù)雜嚴(yán)峻的國際競爭環(huán)境中,開拓出一條獨(dú)具特色的創(chuàng)新發(fā)展道路。
3.推理時(shí)代的價(jià)值驗(yàn)證
如果說“訓(xùn)練時(shí)代”的關(guān)鍵詞是“突破極限”,那么“推理時(shí)代”的核心則是“產(chǎn)業(yè)落地”。
從算法迭代、模型構(gòu)建到真實(shí)場景部署,AI的演進(jìn)正從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。誰能率先完成從模型研發(fā)到應(yīng)用上線的閉環(huán),誰就能在這輪技術(shù)遷移中取得先發(fā)優(yōu)勢。
在這樣的市場環(huán)境中,如何構(gòu)建“用得起、用得好”的AI云服務(wù),成為國產(chǎn)平臺的核心命題。AI技術(shù)的普惠性是基礎(chǔ),但要真正實(shí)現(xiàn)AI的廣泛落地,還需要在行業(yè)應(yīng)用層面深入發(fā)力,解決實(shí)際需求的多樣化與復(fù)雜性。
在這場轉(zhuǎn)變中,昇騰AI云服務(wù)扮演著連接算法能力與行業(yè)需求的關(guān)鍵角色。依托自研芯片、框架與平臺,昇騰云打造出覆蓋全鏈路的自主技術(shù)體系,為各行業(yè)的智能化建設(shè)提供了基礎(chǔ)支撐。
這一過程絕非單兵作戰(zhàn)。昇騰云已攜手科大訊飛、奇瑞、新浪微博等頭部企業(yè),構(gòu)建了涵蓋模型開發(fā)與場景落地的生態(tài)閉環(huán)。
除了華為的盤古大模型,昇騰AI云服務(wù)還持續(xù)適配第三方模型,截至目前已適配行業(yè)主流160多個(gè)大模型,協(xié)助客戶開發(fā),訓(xùn)練,托管和應(yīng)用模型。昇騰AI云服務(wù)上線以來,面向政府、金融、零售、互聯(lián)網(wǎng)、交通、制造等行業(yè)已經(jīng)服務(wù)六百多家的創(chuàng)新先鋒企業(yè)。
此外,與硅基流動(dòng)和DeepSeek的合作,也被認(rèn)為是國產(chǎn)模型與國產(chǎn)算力結(jié)合的代表案例。DeepSeek模型滿血版現(xiàn)已上線昇騰AI云服務(wù),并基于昇騰AI云服務(wù)的全棧優(yōu)化適配。
該服務(wù)在保證單用戶20TPS水平前提下,單卡Decode吞吐突破1920Tokens/s,比肩英偉達(dá)H100的部署性能。同時(shí)經(jīng)過主流測試集驗(yàn)證及大規(guī)模線上盲測,在昇騰算力部署DeepSeek-R1的模型精度與DeepSeek官方保持一致。
華為云計(jì)算CEO張平安 圖片來源:網(wǎng)絡(luò)
同時(shí),張平安在華為云生態(tài)大會現(xiàn)場介紹,在全球,華為云開服節(jié)點(diǎn)已經(jīng)覆蓋了全球33個(gè)地理區(qū)域,96個(gè)可用區(qū),在中國也完成了貴安、烏蘭察布、蕪湖三大云核心樞紐布局,這也是目前全球最大規(guī)模、最新技術(shù)、最高規(guī)格的數(shù)據(jù)中心與算力中心,通過這些布局,華為云實(shí)現(xiàn)了國內(nèi)30ms,海外50ms時(shí)延圈,構(gòu)建全球存算一張網(wǎng)。
換言之,昇騰云的目標(biāo)是:構(gòu)建一個(gè)像電網(wǎng)一樣普惠的AI基礎(chǔ)設(shè)施。
然而,從 “用得上” 到 “用得精”,AI落地難點(diǎn)在轉(zhuǎn)移。「甲子光年」觀察到,不同行業(yè)高度異構(gòu)與定制化,通用大模型難以覆蓋復(fù)雜場景,“場景適配能力”正成為模型部署成敗的關(guān)鍵因素。
昇騰云基于芯片、框架、工具鏈與云平臺協(xié)同,為行業(yè)場景提供定制服務(wù),實(shí)現(xiàn)模型快速適配、上線,形成與客戶的穩(wěn)定綁定,構(gòu)成重要的護(hù)城河。
在全球科技博弈下,昇騰云亦擺脫外部生態(tài)依賴,保障數(shù)據(jù)、供應(yīng)鏈安全,為國內(nèi)企業(yè)提供安全可信的基礎(chǔ)設(shè)施。
面對激烈的市場競爭和復(fù)雜的行業(yè)需求,昇騰云的目標(biāo)和策略已經(jīng)明確:
不求短期性能超越和簡單替代,而在于通過系統(tǒng)性創(chuàng)新,專注長期可用性與工程落地能力;不止追求技術(shù)自主,更關(guān)注實(shí)際產(chǎn)業(yè)需求的契合;最終構(gòu)建支撐行業(yè)智能化應(yīng)用規(guī)模化落地的AI“第二選擇”。
畢竟,推理時(shí)代的競爭,不只是算力之爭,更是穩(wěn)健性、適配力與技術(shù)獨(dú)立性的綜合比拼。
而這些,正是昇騰云正在交付的答案。
(封面圖由AI生成)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.