用空間換算力;用帶寬換算力;用能源換算力……用一切換算力。
文 | 華商韜略 熊劍輝
【與時(shí)間賽跑】
2025年1月15日,中國AI大模型DeepSeek R1剛一問世,便震動(dòng)全球。
針對DeepSeek,全世界展開了一場龍爭虎斗。
可僅僅2周之后,2月1日(大年初四),華為云就聯(lián)合硅基流動(dòng)基于昇騰云推出DeepSeek R1/V3,引爆全網(wǎng)。
從模型到算力,從引擎到框架,全面實(shí)現(xiàn)國產(chǎn)化。
這其中,DeepSeek和華為自不用說。硅基流動(dòng)作為一家AI Infra(AI基礎(chǔ)設(shè)施)企業(yè),則是清華博士袁進(jìn)輝2023年剛創(chuàng)立的創(chuàng)業(yè)公司。
創(chuàng)業(yè)公司往往嗅覺極度靈敏。
其實(shí),早在DeepSeek V3發(fā)布前一個(gè)月,DeepSeek創(chuàng)始人梁文鋒就找到袁進(jìn)輝,問他要不要部署?
袁進(jìn)輝算了一筆賬:動(dòng)用80臺(tái)英偉達(dá)H800服務(wù)器,單月花費(fèi)五六百萬,風(fēng)險(xiǎn)很大。
但眼見著DeepSeek越來越火爆,全世界的AI團(tuán)隊(duì)都爭分奪秒,連英偉達(dá)也親自下場。
時(shí)間不等人,硅基流動(dòng)火速找到華為云。雙方一拍即合,決心大干一場,希望能用國產(chǎn)算力率先搞定部署難題。
華為云的方案,正是昇騰云。
于是,雙方經(jīng)過徹夜不息的努力,終于在2月推出基于昇騰云與硅基流動(dòng)推理加速引擎的DeepSeek,成為國內(nèi)第一個(gè)成功部署DeepSeek服務(wù)的企業(yè)。
僅2月,硅基流動(dòng)網(wǎng)站訪問量暴增40倍,沖上中國AI網(wǎng)站排行榜第6、全球AI網(wǎng)站增長榜第2。
狂暴的流量,讓人又驚又喜。
據(jù)華為云技術(shù)負(fù)責(zé)人王磊回憶,硅基流動(dòng)DeepSeek剛上線,第一波流量超乎想象。他不得不四處騰挪,緊急調(diào)撥2000多張昇騰910B卡馳援,才勉強(qiáng)扛住。
但第一波“洪峰”之后,更大的流量爆發(fā)了。
這一次,不得不每次1000卡地往上加,不計(jì)上限地調(diào)配算力,才勉強(qiáng)扛住。
但這一波之后呢?未來的流量,還會(huì)爆發(fā)到怎樣的程度?
沒有人知道。
于是,華為云找到袁進(jìn)輝,亮出當(dāng)時(shí)還秘不示人的“大殺器”——CloudMatrix 384超節(jié)點(diǎn)。
對于超節(jié)點(diǎn),袁進(jìn)輝早有耳聞。
2024年3月,英偉達(dá)首發(fā)NVL72超節(jié)點(diǎn),一度震驚世界。
傳統(tǒng)AI服務(wù)器里,一張計(jì)算卡僅能容納8塊GPU;但NVL72超節(jié)點(diǎn),能將72塊GPU組成一臺(tái)超級AI服務(wù)器,令A(yù)I算力和通訊速度實(shí)現(xiàn)飆升。
所以,超節(jié)點(diǎn)是一種將GPU高度集成的AI服務(wù)器“黑科技”。
誰也沒想到,華為云這么快就搞出了CloudMatrix 384超節(jié)點(diǎn)。
而且,華為云超節(jié)點(diǎn)的昇騰卡互聯(lián)數(shù)量飆升到384張,遠(yuǎn)超英偉達(dá)NVL72的72卡。
這是中國AI的算力之巔,更是前所未有的應(yīng)用挑戰(zhàn)。
當(dāng)時(shí),袁進(jìn)輝坦承對CloudMatrix 384懷有疑慮:
第一,DeepSeek所需的大規(guī)模專家并行,要求多卡之間實(shí)現(xiàn)低延遲、高協(xié)同,并使用All-to-All通信。
但即便是英偉達(dá),對All-to-All的支持也相當(dāng)乏力。
CloudMatrix 384行不行?沒有人知道。
第二,英偉達(dá)NVL72超節(jié)點(diǎn),采用銅連接;CloudMatrix 384卻采用光模塊。區(qū)別在哪呢?
光模塊通信具備更高帶寬和更低時(shí)延,適合大容量、長距離傳輸;此外光網(wǎng)絡(luò)架構(gòu)簡化,空間和功耗節(jié)省顯著,且擴(kuò)展性更強(qiáng)。但光模塊最大的問題就在于故障率高。
這個(gè)超高難度的連接方式,到底行不行?沒有人知道。
盡管充滿疑慮,但袁進(jìn)輝選擇“信華為”:
“華為不僅是打過硬仗的團(tuán)隊(duì),更創(chuàng)造了很多很多的奇跡。”
實(shí)際上,袁進(jìn)輝的疑慮,也正是騰建軍所擔(dān)心的。
【華山一條路】
2023年2月,一場驟然爆發(fā)的電源浪涌,席卷新加坡數(shù)據(jù)中心,多家云廠商和數(shù)據(jù)中心客戶受影響。
騰建軍,正是這場危機(jī)的親歷者。
當(dāng)時(shí),新加坡華為云和微軟云恰好在同一數(shù)據(jù)中心。唯一不同的是,電源浪涌爆發(fā)后,華為云的AI for DC(Data Center),迅速“感知”到電源浪涌引發(fā)的高溫,自動(dòng)觸發(fā)應(yīng)急預(yù)警。
作為資深專家,騰建軍和團(tuán)隊(duì)迅速判斷出,這將是一場全局危機(jī)。
這也是一場爭分奪秒的戰(zhàn)斗。
1分鐘發(fā)現(xiàn)故障,3分鐘建立作戰(zhàn)室進(jìn)行統(tǒng)一指揮,1小時(shí)內(nèi)啟動(dòng)干冰應(yīng)急計(jì)劃……
騰建軍率領(lǐng)團(tuán)隊(duì)頭戴防毒面罩、手挑干冰,沖進(jìn)現(xiàn)場給服務(wù)器物理降溫,生生扛住這波突襲,確保了華為云穩(wěn)定運(yùn)行。
江湖傳言,這一天,新加坡的干冰被華為云直接搬空。
微軟云在內(nèi)部溫度驟升、短暫抵抗之后,關(guān)閉了服務(wù)器,中斷了云服務(wù)。
微軟云客戶甚至是在Twitter上,才得知自家業(yè)務(wù)猛然宕機(jī),被打了個(gè)措手不及。
一邊迅速趴窩,一邊穩(wěn)如泰山。
僅此一招,足見華為云的功力。
但智算超節(jié)點(diǎn)時(shí)代,對數(shù)據(jù)中心的要求更加苛刻。
在騰建軍眼中,CloudMatrix 384超節(jié)點(diǎn)要在物理上真正落地,數(shù)據(jù)中心要解決的是一連串實(shí)打?qū)嵉碾y題。
因?yàn)閿?shù)據(jù)中心,是“智算超節(jié)點(diǎn)產(chǎn)品”不可分割的一部分。
比如供電。
傳統(tǒng)數(shù)據(jù)中心,供電只做到8-10千瓦/機(jī)柜;但為了驅(qū)動(dòng)CloudMatrix 384,僅供電就要飆升到50千瓦甚至更高,怎么辦?
那就突破標(biāo)準(zhǔn),超前技術(shù)準(zhǔn)備、超前建設(shè)。
散熱上,一套CloudMatrix 384橫跨16個(gè)機(jī)柜,熱量密度飆升,必須構(gòu)建一套精密的液冷散熱系統(tǒng)。
這其中,僅鏟齒散熱器的縫隙,就堪比發(fā)絲般精細(xì)。一旦散熱液潔凈度出現(xiàn)些許問題,或是不可避免滋生細(xì)菌微生物,就很可能將鏟齒散熱器堵死,不可避免導(dǎo)致大規(guī)模宕機(jī)。
這時(shí)候,又怎么辦?
一方面,用AI for DC提前預(yù)警;另一方面,通過物理+化學(xué)的新方法長效殺菌,實(shí)現(xiàn)數(shù)學(xué)、物理到生物、化學(xué)的跨界研究,引領(lǐng)一場液冷革命。
而這些技術(shù),早在幾年前就在華為云得到規(guī)模應(yīng)用,展現(xiàn)出技術(shù)超前投入的前瞻價(jià)值。
但光模塊,差點(diǎn)成了騰建軍“過不去的坎”。
實(shí)際上,華為在光通信領(lǐng)域早已世界領(lǐng)先。
2020年,華為全球首發(fā)800G超高速光模塊,獨(dú)步全球;2025年,華為再發(fā)1.6T硅光模塊,在800G基礎(chǔ)上再翻一倍。
至此,業(yè)界已無人得見華為光通信的“車尾燈”。
強(qiáng)大的技術(shù)積淀,讓華為云用光模塊構(gòu)建超節(jié)點(diǎn),而非采用銅連接,成為一種必然。
可真槍實(shí)彈干起來才發(fā)現(xiàn),困難比預(yù)想的大得多。
實(shí)測中,騰建軍發(fā)現(xiàn):光鏈路的閃斷太頻繁了,結(jié)果就是——完全不能用!
“咯噔”一下子。問題嚴(yán)重了!
當(dāng)時(shí),CloudMatrix 384赫然被列入華為重點(diǎn)密級項(xiàng)目,是必須強(qiáng)渡的“大渡河”。加上單卡性能不如人,被逼得只能闖光模塊這“華山一條路”。真被卡死,滿盤皆輸。
但那段時(shí)間,騰建軍對團(tuán)隊(duì)說的最多的話卻是:
不要談困難,想盡辦法去突破。
于是,一邊內(nèi)部想辦法,一邊外界請高人,同時(shí),只能用最笨的辦法把難題列出來,一條條去攻克。
終于,騰建軍團(tuán)隊(duì)發(fā)現(xiàn):八成以上問題,出在光模塊幾乎肉眼不可見的臟污上,嚴(yán)重影響了通訊質(zhì)量;而臟污的產(chǎn)生,就在數(shù)據(jù)中心現(xiàn)場超節(jié)點(diǎn)內(nèi)網(wǎng)互連的安裝環(huán)節(jié)。
找準(zhǔn)了關(guān)鍵就好辦。
于是,團(tuán)隊(duì)打造出針對光模塊故障的定位和修復(fù)系統(tǒng),通過數(shù)字化平臺(tái)上的專家經(jīng)驗(yàn)庫和現(xiàn)場光模塊的故障現(xiàn)象進(jìn)行對接,實(shí)現(xiàn)了問題快速定位、故障迅速處置。
這一次,CloudMatrix 384再上線,速率、穩(wěn)定性大幅提高。
作為全球首次大規(guī)模動(dòng)用光模塊部署超節(jié)點(diǎn)的探索,華為云創(chuàng)造了“奇跡”。
這一切,都成為硅基流動(dòng)基于CloudMatrix 384再次爆發(fā)的堅(jiān)實(shí)根基。
【一場新征程】
2月底,當(dāng)強(qiáng)大的CloudMatrix 384呈現(xiàn)在硅基流動(dòng)團(tuán)隊(duì)面前時(shí),所有人面對的,卻是一場新的長征。
王磊清楚記得:
3月初,硅基流動(dòng)DeepSeek服務(wù)在超節(jié)點(diǎn)上剛跑通,吞吐量只有320 Tokens/秒,低到令人難以置信。
一臺(tái)算力怪獸,表現(xiàn)如此拉胯,問題出在哪?沒有人知道。
實(shí)際上,普通人很難想象,大模型內(nèi)星辰般的宏大:
它的參數(shù),高達(dá)數(shù)千億級;它的神經(jīng)網(wǎng)絡(luò)層級,成百上千;每個(gè)算子(神經(jīng)網(wǎng)絡(luò)中具備特定功能的算法節(jié)點(diǎn))背后,連接著不計(jì)其數(shù)的分布式系統(tǒng);它的結(jié)果,則由成百上千張GPU協(xié)同計(jì)算輸出,充滿概率偶然。
要在這其中找出問題,仿佛是在一座亞馬遜雨林中通緝一只細(xì)菌。
這幾乎是一個(gè)不可能完成的任務(wù)。
但華為云,必須上。
很快,王磊發(fā)動(dòng)“超能力”,開始全公司“搖人”。
從底層做芯片的、做存儲(chǔ)的、做計(jì)算的,到上層做算子的、做推理的、做平臺(tái)的……王磊竭盡所能,幾乎把技術(shù)棧上的所有團(tuán)隊(duì)拉到現(xiàn)場,跟硅基流動(dòng)團(tuán)隊(duì)協(xié)同辦公、攻堅(jiān)克難。
協(xié)議有問題,馬上改協(xié)議;算子有問題,馬上改算子……圍繞硅基流動(dòng)DeepSeek服務(wù)上的超節(jié)點(diǎn)大計(jì),華為上百人的團(tuán)隊(duì),晝夜攻關(guān)不息。
而對華為云團(tuán)隊(duì)來說,冗長的測試,更是一個(gè)永不停歇的“西西弗神話”。
通信有瓶頸,優(yōu)化通信;但接著,計(jì)算問題又冒出來了;于是,優(yōu)化計(jì)算后,GPU、NPU太快,CPU不匹配……
當(dāng)整個(gè)技術(shù)棧全部優(yōu)化一遍后,王磊猛然發(fā)現(xiàn),問題又從最初的源頭,再次冒了出來。
總之,按下葫蘆浮起瓢。
但就是在這種重復(fù)、重復(fù)、再重復(fù)的優(yōu)化過程中,CloudMatrix 384,終于被托舉到一個(gè)不可思議的新高度。
4月10日,華為云生態(tài)大會(huì),硅基流動(dòng)創(chuàng)始人袁進(jìn)輝鄭重宣布:
基于CloudMatrix 384的DeepSeek-R1在保證單用戶 20 TPS 水平前提下,單卡 Decode 吞吐量突破 1920 Tokens/秒。
這什么概念?
相較英偉達(dá)H100,性能追平;相較3月初的CloudMatrix 384,性能提升6倍;相較昇騰910B單卡,性能飆升10倍。
這背后,CloudMatrix 384還實(shí)現(xiàn)了性能倍增(訓(xùn)推提升20%)、以存強(qiáng)算(吞吐量提升100%)、MoE親和(千億MoE提升3X)、長穩(wěn)可靠(長穩(wěn)運(yùn)行40天不中斷)、朝推夜訓(xùn)(算力利用率提升30%)、即開即用六大特性。
以MoE親和為例。
所謂MoE,即DeepSeek中的“混合專家模型”。DeepSeek之所以功能超強(qiáng),在于其會(huì)內(nèi)置多個(gè)“專家”處理問題。而在硬件層面,通常1枚芯片對應(yīng)1個(gè)“專家”,于是芯片越多,效率越高、性能越強(qiáng)。
而超節(jié)點(diǎn)集成了384張昇騰卡,極大優(yōu)化了MoE能力。
這不僅令DeepSeek性能大爆發(fā),更展現(xiàn)出華為云在AI技術(shù)上的前瞻布局。
今天,在華為云三大云核心樞紐(貴州貴安、內(nèi)蒙古烏蘭察布、安徽蕪湖),CloudMatrix 384實(shí)現(xiàn)全面布局,成為國內(nèi)唯一正式商用的大規(guī)模超節(jié)點(diǎn)。
強(qiáng)大的算力網(wǎng),令萬卡級服務(wù),分分鐘即可開啟。
這不僅是華為云的自我超越,也不僅是部分指標(biāo)上對英偉達(dá)的超越,更大的意義,在于中國AI正呈現(xiàn)出體系化的突破式創(chuàng)新。
用袁進(jìn)輝的話說:美國試圖像“三體人”一樣,用芯片鎖死中國科技。
但6年抗?fàn)庍^去,向死而生的華為,卻越挫越勇。
當(dāng)歷經(jīng)了鴻蒙蟄伏、海思攻堅(jiān)、昇騰崛起……憑借華為云CloudMatrix 384超節(jié)點(diǎn),一道堅(jiān)不可摧的國產(chǎn)算力防線正在構(gòu)建。
AI長跑沒有終點(diǎn),突破,也不會(huì)有終點(diǎn)。但中國AI,一定會(huì)迎來自己的“奇點(diǎn)”時(shí)刻。
(應(yīng)受訪者要求,文中王磊、騰建軍為化名)
歡迎關(guān)注【華商韜略】,識(shí)風(fēng)云人物,讀韜略傳奇。
版權(quán)所有,禁止私自轉(zhuǎn)載
部分圖片來源于網(wǎng)絡(luò)
如涉及侵權(quán),請聯(lián)系刪除
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.