過去一年,大模型產業在中國呈現出一種高度一致的“落地節奏”:各大廠商爭相推出“大模型一體機”,從軟件到硬件、從模型到芯片,打包交付,仿佛只要客戶部署好一臺機器,AI的未來就能就此開啟。
但表面上的熱鬧,掩蓋不了一個被集體忽視的事實:真正決定AI產業格局的,從來都不是賣出多少一體機,而是誰擁有構建超級智算平臺的能力。
一體機只是戰術性落地的臨時方案,是真正大模型時代來臨前的一種產業緩沖。它無法支撐未來AI所需的大規模訓練能力、實時推理能力、海量并發處理能力。只有擁有10萬卡、甚至百萬卡級別的GPU算力基礎設施,才能承載未來AI的真正需求。
這就像過去的云計算——不是“賣服務器”的公司贏了,而是能構建CPU算力平臺并提供服務彈性的公司成為了基礎設施的主宰者。
今天,AI產業正在重演這一幕。只是這一次,主角從CPU變成了GPU,終點也從“資源即服務”,升級為“智能即服務”。
我們必須開始正視:在大模型時代,真正的“新基建”,是超級智算集群,是大規模GPU基礎設施的統籌調度與持續演進能力。
誰能構建得起10萬卡級GPU集群,誰就能提供全球級的AI能力支撐;而誰只能賣一體機,誰就注定停留在“拼裝交付”的初級階段。
為什么大模型真正的挑戰是超級智算,
而不是設備交付
從表面看,大模型的落地瓶頸似乎在應用:怎么服務好企業客戶?怎么嵌入業務場景?怎么把AI變成一個“能用起來”的東西?
但如果我們把時間尺度拉長,把視角從“終端部署”上升到“產業結構”,就會發現一個更加本質的問題:AI不是用不出去,而是養不起。
☆大模型=重資源,推理比訓練更“燒算力”
一個GPT-4級別的模型,訓練成本動輒上億;但更難的是,它上線之后,每一次調用推理,都要消耗大量顯存、IO、帶寬、能耗。
當一個模型被嵌入搜索、客服、文檔、代碼、金融等上百個場景,它就不再是一個“智能體”,而變成一個實時運行的智能基礎設施。
那就意味著:你不是要部署一個模型,而是要部署一個永遠在線、海量并發、低延遲響應的“智能電廠”。
☆單點部署模式,撐不起AI的長尾需求
一體機、私有化部署方案,確實可以解決局部場景中的“安全性”焦慮,但它們存在天然局限:
算力是固定的,不能彈性擴容;
單位計算成本很可能高于云端集群;
模型無法實時更新、優化、回傳反饋;
無法形成模型間調度、多任務分發、推理負載均衡機制;
這就像你用筆記本電腦當服務器,早期能跑,業務一上規模就崩了。
真正的AI應用,不是靠一臺一體機能“扛下來”的,而是需要一個全局調度、按需供給、資源池化的超級智算平臺。
☆超級智算平臺,就像AI時代的“公路、電網和水利系統”
就像云計算時代是靠成千上萬CPU服務器組成的資源池,支撐起SaaS、視頻、社交、支付系統一樣。AI時代的基礎設施,是由萬卡、十萬卡GPU組成的智算集群,支撐起未來的:
1.多模態智能系統
2.復雜任務鏈條(RAG、Agent、代碼生成等)
3.千億級參數模型訓練與熱啟動
4.海量推理服務請求并發響應
可以說,沒有超級智算,就沒有規模化的模型服務;沒有彈性集群,就沒有行業級的智能普惠。
因此,大模型時代的真正挑戰,從來不在“怎么裝進一臺機器”,而在于如何支撐它不斷演進、實時響應、廣泛服務的算力系統設計能力。
國外已在沖頂,國內必須補課
當前全球AI發展的技術焦點,已經從“有沒有模型”進入“有沒有能力訓練與服務更大的模型”。這背后的決定性力量,正是:誰掌握了最強、最大、最靈活的GPU智算集群。
在國外,已經開啟了超級智算集群的軍備競賽,主流玩家包括OpenAI、微軟、谷歌、xAI、AWS、甲骨文等。
先來看OpenAI,相對而言,超級算力平臺才是“神助攻”。
我們看到GPT-4、Sora等模型引發世界級震撼,但真正支撐它們快速迭代的,不只是算法,而是超大規模智算資源調度平臺:
GPT-4的訓練據稱使用了超過2.5萬卡GPU集群,多節點并行訓練,跨芯片同步; GPT-5、Sora背后據傳動用了超過10萬卡的算力平臺,具備高吞吐、高帶寬、高能效的特性。 微軟為OpenAI建設的AI超級計算中心,正在不斷擴容,目標是構建全球最大規模GPU調度系統。
再看NVIDIA,它不僅賣GPU,更在用NVIDIA DGX Cloud構建全球化AI計算平臺,把“硬件公司”進化成了“全球智能電網的基建商”。
至于谷歌,其擁有全球最高性能的數據中心之一,TPU v4/v5集群提供PB級帶寬,連接上萬顆TPU芯片,為Gemini系列提供訓練支持。其Borg調度系統幾乎是AI訓練的“智算操作系統”,支撐大模型訓練過程中的負載感知、能耗均衡、任務遷移。
Meta也不甘人后,Meta公開稱其擁有超過3萬個GPU的訓練平臺,并繼續投入擴展;構建了“開放模型+自建訓練平臺+高度優化Transformer棧”的組合模式。LLaMA系列模型能穩定快速迭代(LLaMA2到LLaMA3再到LLaMA4),背后靠的是可控的內部智算能力。
這就是為什么,真正的AI強國,不在于訓練了多少模型,而在于:有沒有能力持續訓練、持續推理、持續服務世界級模型。
國外競爭如此激烈,那國內情況如何呢?
中國的頭部科技企業其實早已意識到這一趨勢,也在積極行動。例如:百度昆侖、阿里云、華為昇騰等團隊都在嘗試建立自主化智算中心;京津冀、長三角、粵港澳等地也在推進國家級“算力調度網絡”建設;中科院、浪潮信息等機構構建了數千卡至萬卡級GPU平臺,提升大模型訓練能力。
但必須正視現實,我們還存在諸多短板:芯片供應不穩定,限制了卡數規模;軟件生態鏈條尚不成熟,調度系統、框架適配、系統穩定性仍待優化;高速互聯技術(如NVLink、Infiniband等)依賴進口,成為集群擴展的物理瓶頸;成本控制、能效比優化尚未形成體系級能力
可以說,我們有“算力節點”,但還缺“超級智算平臺”;有“GPU卡堆”,但還不具備“集群級AI服務的工業化能力”。
應該說,這是一場基礎設施的軍備競賽。誰能率先構建起“十萬甚至百萬卡級別的智算底座”,誰就擁有對全球AI應用提供“基礎電力”的能力。
就像當年AWS打下云計算江山的不是服務器數量,而是能提供全球彈性服務的能力;今天,AI產業要沖上頂峰,必須在智算基礎設施上率先突圍。
超級智算≠炫技,而是AI平臺化的根基
在大眾視角中,超級算力集群往往被看作是一種“技術奇觀”或“軍備競賽”:燒錢、堆卡、拼配置。
但在AI真正的平臺競爭中,超級智算從來都不是“炫技”,而是構建平臺生態、能力服務與行業支撐的起點。
☆沒有超級算力,就沒有平臺級AI能力飛輪
一個真正可持續運營的大模型平臺,必須具備如下能力閉環:
1.持續訓練能力——新模型、新任務、新數據的高頻迭代
2.低成本推理能力——在千行百業中部署、調用、分發的服務效率
3.多租戶、多模態調度能力——同時服務多個用戶、多種任務場景
4.模型自適應優化能力——自動壓縮、加速、蒸餾、遷移,提升模型實際服務能力
5.成本控制與能效比最優化——真正“商用可負擔”
這五個核心環節,背后都依賴一套能力極強、調度靈活、規模龐大的超級智算平臺。一旦缺失其中任一環節,模型服務能力就將斷裂,最終只能走回“單點部署+人工交付”的老路。
☆超級智算的底層作用:成為整個AI生態的“基礎電力網”
AI不再是單一功能,而是多模態、多任務、多角色并行運行的系統生態:
1.多用戶同時使用AI客服、AI代碼助手、AI設計助手、AI財務分析師……
2.后端必須支持千億參數模型的多實例并發推理
3.還要保證任務A不影響任務B,任務B不拖慢任務C
4.同時,對響應時間、能耗、成本都有硬約束
這種復雜性,不是靠部署幾臺一體機就能解決的。這就像讓一個小區用柴油發電機供電,你可以開一盞燈,但你絕對無法點亮一座城市。超級智算集群,才是AI時代點亮城市的電力中樞。
☆誰掌握智算平臺,誰就掌握了“AI能力分發權”
與其說超級智算是大模型企業的“技術肌肉”,不如說是它們的平臺門票。
沒有它,你永遠只能是模型供應商,是工具廠。
有了它,你才能成為服務運營商、生態組織者、平臺規則制定者。
這就像AWS之于全球開發者,像英偉達之于AI開發者。未來的大模型領導者,不是“誰模型最好”,而是:誰能構建一個足夠強大、足夠開放、足夠可靠的AI能力基礎設施,承載整個智能社會的運轉需求。
一體機是戰術緩解,
超級智算才是中國AI的戰略突破口
在當前中國AI產業語境中,一體機之所以火爆,不僅是出于市場現實的考量,更與算力供給不足、芯片受限、政策要求等復雜因素有關。
它短期內確實緩解了模型部署、數據出域、安全合規等實際問題,是一種權宜之計。
但必須承認:一體機解決的是“能不能用”的問題,超級智算解決的是“能不能贏”的問題。
☆一體機是一種戰術妥協
滿足本地化部署:符合金融、政務等行業對數據不出域的合規要求;
適配現有采購機制:企業客戶“習慣買設備”,供應商“習慣交付項目”;
短期內快速回款:廠商可以通過硬件+服務打包,實現早期商業閉環;
但它無法解決以下問題:模型無法快速迭代更新;算力規模受限,難以支撐復雜多模態應用;推理成本高、資源利用率低、生態協同困難。
這種模式在商業化初期有效,但在AI能力成為產業基礎設施的那一刻,它注定會被更大規模、更高效率、更具服務化能力的智算平臺取代。
☆對中國AI來說,超級智算不是可選項,是國家戰略任務
全球AI競爭的本質,已經不是“誰的模型更強”,而是“誰的算力底座更可控、更可擴、更可持續”。而這背后,考驗的是一個國家的:
芯片自研能力;
高性能網絡與互聯技術;
綠色算力布局(能耗優化);
彈性調度系統與模型服務體系;
算力主權;
從這個角度看,一體機是小打小鬧,而超級智算平臺,才是真正意義上的“AI時代的工業母機”。
我們不能滿足于“把AI跑起來”,我們必須追求“把AI持續跑下去,跑得更快、更遠、更穩定”。
構建十萬卡GPU級智算集群,
需要跨越哪些關鍵挑戰?
當然,要構建萬卡甚至十萬卡GPU級別的智算集群,并不是一件容易的事情。
當我們談構建萬卡、十萬卡GPU級別的超級智算平臺時,它不只是一個“更大規模的服務器堆疊”問題,而是牽涉到整個計算架構、系統工程、調度算法、能源策略和生態組織的全面重構。
以下是六個必須解決的核心挑戰:
1.GPU芯片與供應鏈:稀缺、依賴、替代
當前高性能GPU(如NVIDIA A100/H100/H200、GH200)高度集中在英偉達手中,國內無法自由采購,制約了大規模擴張能力;
自主替代芯片(如昇騰、昆侖、摩爾線程、地平線等)仍在成長中,與頂級GPU在生態、性能、功耗上尚有差距;
芯片只是底層,圍繞芯片構建穩定的供應鏈、驅動棧、運維體系,更是極具挑戰的工程。
要解決這個問題,需要在芯片國產替代、異構算力兼容適配、統一編程框架抽象(如統一的AI runtime)等方向努力。
2.高速互聯:集群瓶頸的隱形殺手
在萬卡、十萬卡規模下,GPU間通信瓶頸成為訓練/推理性能的“決定性短板”;
當前主流方案(如InfiniBand、NVLink、PCIe)均高度依賴海外供應;
數據在GPU間的“多跳復制”會引發延遲放大、吞吐下降,嚴重影響分布式訓練和推理效率。
那如何解決這個問題呢?解決方向:國產高速互聯方案研發(例如曙光“星辰互聯”)、低延時拓撲設計、GPU調度與通信協同優化。
3.系統調度與彈性資源管理
要做好系統調度和資源管理,需要具備一系列的能力:大模型訓練通常需要多節點同步、任務并行劃分精細化、容錯重調度機制;萬卡調度系統必須支持:作業感知的任務編排;多租戶模型調度;推理與訓練分層調度;任務搶占與冷啟動優化。
當前國內主流調度系統(如Slurm、Kubernetes、Yarn),很多未針對AI大規模分布式訓練/推理場景進行深度優化。
未來,需要研發面向AI工作負載的“智算原生操作系統”,構建統一調度中樞(如OpenAI背后的Borg-like系統)。
4.軟件棧與模型兼容性:從芯片到API的統一生態
超級智算平臺不能只跑一套模型,它必須支持:多類型模型(語言、視覺、多模態、語音);多種框架(PyTorch、TensorFlow、MindSpore);多家廠商的異構芯片、模型、優化器、微調方案。
沒有一套統一的“模型開發-部署-調度-監控”閉環系統,智算平臺將成為孤島式系統拼圖。
因此,需要打造統一AI開發運行平臺(如國內的昇思MindSpore),實現跨模型、跨芯片、跨框架的可移植性。
5.能效控制與綠色算力布局
10萬卡GPU的功耗接近一個中型城市電網級別,面臨:供電壓力(1臺GPU服務器功耗可達3–6千瓦);散熱難題(大規模集群需定制液冷/氟冷系統);運維挑戰(宕機影響大,難排查,熱失控嚴重)等問題,要解決這些問題,需要從智能功耗感知調度、節能AI芯片的導入(如定制推理芯片)等方面著手。
其中,液冷技術就成為破局的關鍵。具體內容,可參見數據猿發布的文章《到了必須上“液冷”的時候了?》
6.服務化能力與商業運營閉環
除了技術上的挑戰,構建良性商業閉環,也是一個關鍵課題。超級集群不是“科研項目”,而是要轉化為“算力即服務(CaaS)”的商業基礎設施,必須具備對外租戶服務能力。同時,需要支持不同企業按需租用GPU,支持API調用推理服務,支持安全隔離、計費、運營、運維、監控全流程等。
在這個方向上,需要構建平臺化運營體系,學習AWS/Azure的產品化能力,探索“模型即服務”+“算力即服務”的雙輪運營機制。
可以看到,構建智算集群,不是把GPU插滿機柜就行,而是打造一套支撐未來十年AI服務化浪潮的“智能操作系統級基礎設施”。
在這個AI快速演進的時代,我們談模型能力、應用落地、行業融合,幾乎每天都有“新突破”“新概念”。但很少有人意識到:真正決定AI格局的,不只是誰能做出一個SOTA模型,還是誰有能力支撐它持續演進、規模部署、彈性服務。
而這一切的起點,歸根結底,是超級算力。而且,超級算力不是“有多少塊GPU”,而是:你能不能把它們組織起來,讓它們像電網一樣高效運轉、像云平臺一樣彈性開放,像操作系統一樣支撐千行百業。
過去十年,云計算的崛起改變了企業的IT結構,造就了AWS、Azure、阿里云、騰訊云、華為云這樣的平臺型巨頭。
未來十年,AI智算的基礎設施能力,將決定下一個平臺秩序的主導者。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.