出品 | 虎嗅科技組
作者 | 丸都山
編輯 | 苗正卿
頭圖 | 行云集成電路
在北京萬(wàn)泉河畔的一幢寫字樓內(nèi),我初次見(jiàn)到季宇。
他的身上有著多個(gè)令人矚目的標(biāo)簽:前華為“天才少年”;昇騰編譯器專家;清華大學(xué)計(jì)算機(jī)科學(xué)博士;CCF(中國(guó)計(jì)算機(jī)學(xué)會(huì))優(yōu)秀博士學(xué)位論文獲得者。
兩年前,季宇從華為離職后,創(chuàng)辦了行云集成電路,走上了自研GPU的道路。
而相較于他本人,更令我印象深刻的是他的辦公室——各類物品擺放得井然有序,房間內(nèi)纖塵不染,這樣極致的整潔度,在工科背景的創(chuàng)業(yè)者中實(shí)屬少見(jiàn)。
“主要原因是平時(shí)都在工位辦公,所以辦公室才能保持整潔。”正當(dāng)我發(fā)出贊嘆之時(shí),季宇將手指向屋外,做出了補(bǔ)充說(shuō)明。
這種令人猝不及防的“坦率”,在接下來(lái)兩個(gè)小時(shí)的對(duì)談中,上演了多次。
比如在談到公司前不久發(fā)布的DeepSeek一體機(jī)“褐蟻”時(shí),他甚至直接用“組裝機(jī)”一詞來(lái)代指。
對(duì)于關(guān)注AI行業(yè)的人來(lái)說(shuō),“DeepSeek一體機(jī)”的概念一定不會(huì)感到陌生,這是一種融合了高性能硬件、模型算法框架和行業(yè)應(yīng)用軟件的集成化計(jì)算設(shè)備,也可以粗暴地理解為“一臺(tái)本地部署DeepSeek模型的電腦”。
當(dāng)然,在硬件層面,DeepSeek一體機(jī)離不開(kāi)上游產(chǎn)業(yè)鏈的支持,通常都是“英特爾/國(guó)產(chǎn)CPU+英偉達(dá)GPU+一定數(shù)量的系統(tǒng)盤/內(nèi)存盤”組合。
這也是季宇將DeepSeek一體機(jī)稱之為“組裝機(jī)”的原因。
不過(guò),相較于過(guò)去家用的組裝機(jī),DeepSeek一體機(jī)的“攢機(jī)成本”要高的多,比如在一臺(tái)機(jī)器里放置8張H20芯片,僅GPU這項(xiàng)成本就奔著80萬(wàn)去了。因此,通常DeepSeek一體機(jī)報(bào)價(jià)都在百萬(wàn)級(jí)區(qū)間。
而在季宇看來(lái),現(xiàn)階段的大模型本地部署,成本上完全可以實(shí)現(xiàn)一個(gè)“數(shù)量級(jí)的降低”——從百萬(wàn)級(jí)拉低至十萬(wàn)級(jí)。
這是如何實(shí)現(xiàn)的?季宇給出的回答讓人驚掉下巴。
“現(xiàn)在的大模型其實(shí)是不一定必須在GPU跑,CPU的內(nèi)存帶寬已經(jīng)足夠,CPU的內(nèi)存可比GPU的顯存便宜多了。”季宇解釋道。
這番言論著實(shí)有些反常識(shí)。
因?yàn)樵趥鹘y(tǒng)認(rèn)知里,CPU內(nèi)存的容量大,但帶寬低;GPU顯存的容量小,但帶寬高。又因?yàn)榇竽P蜕婕按罅康臄?shù)據(jù)并行處理,對(duì)存儲(chǔ)帶寬有著很高的要求,因此在大模型訓(xùn)練和推理的過(guò)程中,GPU要比CPU更加適合,這是業(yè)界公認(rèn)的事實(shí)。
在我拋出疑問(wèn)后,季宇現(xiàn)場(chǎng)給我算了一筆賬:
“最新的服務(wù)器級(jí)CPU,已經(jīng)配備了12內(nèi)存通道,DDR5的內(nèi)存頻率是6400M,再結(jié)合雙路服務(wù)器的形態(tài),頂級(jí)的CPU內(nèi)存帶寬可以達(dá)到1.2TB/s,已經(jīng)超過(guò)RTX 4090(1TB/s)的水平。”
可即便大模型可以通過(guò)“跑在CPU”上的方式,來(lái)大幅降低成本,那么對(duì)于季宇和他所創(chuàng)立的行云來(lái)說(shuō),技術(shù)護(hù)城河是什么呢?業(yè)內(nèi)其他公司同樣可以復(fù)制這個(gè)技術(shù)路線。
更重要的是,作為一家主業(yè)為GPU研發(fā)的公司,卻站出來(lái)否定GPU在大模型時(shí)代的重要性,多少有點(diǎn)“左右互博”的意味。
對(duì)此,季宇解釋道,“現(xiàn)在我們用的公版CPU,它不是為了大模型而定制的,我們需要的是CPU內(nèi)存,但CPU上配備的幾百個(gè)物理核是用不上的,所以我們會(huì)重新設(shè)計(jì)一款芯片,它當(dāng)然還是高性能計(jì)算卡,但與現(xiàn)在英偉達(dá)主推的GPU完全不是一個(gè)概念。”
值得一提的是,季宇自稱是個(gè)“資深NV吹”,非常推崇黃仁勛的經(jīng)營(yíng)哲學(xué),在他看來(lái),英偉達(dá)能夠在短短兩年內(nèi)掀翻英特爾的行業(yè)地位,背后源于黃仁勛十余年的系統(tǒng)性布局,從最早期的對(duì)元宇宙、比特幣、生物醫(yī)藥等領(lǐng)域的投資,以一種“潤(rùn)物細(xì)無(wú)聲”的方式,向行業(yè)證明GPU未來(lái)要比CPU重要。
某種程度上,現(xiàn)在的季宇會(huì)想到去做一款DeepSeek一體機(jī),也是受到黃仁勛的啟發(fā)。
“我們對(duì)于這個(gè)產(chǎn)品的定位,可能更偏向于PoC(概念驗(yàn)證),我不需要它賺多少錢,但我要向行業(yè)證明這個(gè)路線是可行的,如果行業(yè)里能有大批玩家接受,我們就能通過(guò)自研的芯片,為他們提供更低成本的方案。”
這位“資深NV吹”,似乎正在通過(guò)黃仁勛的方式,來(lái)挑戰(zhàn)英偉達(dá)的權(quán)威。
以下為筆者與季宇交流實(shí)錄,部分內(nèi)容略有刪減:
虎嗅:你之前在華為是做編譯器開(kāi)發(fā)的,為什么創(chuàng)業(yè)后會(huì)想到跨領(lǐng)域做GPU?
季宇:其實(shí)我在學(xué)校時(shí)研究的方向和入行后的工作,也沒(méi)什么相關(guān)性。我那會(huì)學(xué)的是體系結(jié)構(gòu),算是與芯片架構(gòu)相關(guān)。當(dāng)時(shí)選擇編譯器時(shí)因?yàn)槲野l(fā)現(xiàn)行業(yè)內(nèi)做了很多不錯(cuò)的芯片,但是最后商業(yè)化的時(shí)候還是卡在了軟件生態(tài)這件事情上。我覺(jué)得要考慮它上面的編譯器軟件應(yīng)該怎么去搭建,才能解決它這個(gè)端到端的問(wèn)題。
后來(lái)做GPU是因?yàn)樵诖竽P统鰜?lái)后,我意識(shí)到這件事情的長(zhǎng)期確定性是非常高的。而且本身我們就是愿意去做這種新的事情。因?yàn)槟阕隼系氖虑槠鋵?shí)是沒(méi)有太多的機(jī)會(huì)的對(duì)吧?因?yàn)槔系氖虑楦窬郑ㄟ@個(gè)行業(yè)的秩序,其實(shí)都已經(jīng)逐漸成型了你只有新的行業(yè)才有這個(gè)探索的可能性,也才適合創(chuàng)業(yè)公司。
虎嗅:從創(chuàng)業(yè)至今,你做過(guò)的最難的一次決定是什么?
季宇:可能出來(lái)創(chuàng)業(yè)這件事本身最難的,因?yàn)槲业孟认肭宄褪前焉虡I(yè)邏輯想清楚,剩下的所有的事情都可以邊干邊學(xué)。
虎嗅:那在GPU行業(yè)里,你想清楚的商業(yè)邏輯是什么?
季宇:就是今天如果大家按照NV的路線去追趕NV,是不可能挑戰(zhàn)成功的,計(jì)算機(jī)歷史上就沒(méi)有發(fā)生過(guò)。
我們可以回顧下,當(dāng)年英特爾是怎么擠掉IBM成為行業(yè)龍頭的?它不是靠我做了一個(gè)性能超強(qiáng)的大型機(jī),而是靠8086這種毫不起眼的小芯片,最后推動(dòng)了PC產(chǎn)業(yè)革命,讓大家逐漸拋棄大型機(jī),甚至后來(lái)集群也拋棄了大型機(jī)。
后面英偉達(dá)取代英特爾也是一樣的,NV不是在做了一個(gè)性能多么強(qiáng)的CPU,而是告訴大家GPU可以用來(lái)做什么,它用了十年的時(shí)間直接把CPU在計(jì)算機(jī)行業(yè)中的歷史給抹掉了。
虎嗅:所以當(dāng)下行業(yè)中會(huì)發(fā)生這樣的“新舊交替”的機(jī)會(huì)嗎?
季宇:我覺(jué)得最重要的一個(gè)事情是要把大模型從超算競(jìng)爭(zhēng)變成消費(fèi)電子競(jìng)爭(zhēng),讓每個(gè)人都用得起你,這個(gè)才能真正進(jìn)入經(jīng)濟(jì)循環(huán),進(jìn)入各行各業(yè)。
所以我們大的邏輯是希望我們做的產(chǎn)品,是能夠在像今天的消費(fèi)電子一樣的價(jià)位,同時(shí)又能夠把今天超算才能做的這些最高質(zhì)量的大模型,能用這樣的產(chǎn)品能夠支撐起來(lái)。
虎嗅:我們做的DeepSeek一體機(jī)“褐蟻”,為什么能把價(jià)格拉低到“十萬(wàn)元”檔?
季宇:今天核心的矛盾是在于模型需要的顯存跟今天單張卡的顯存gap太大了。所以導(dǎo)致大家今天可能為了跑這樣一個(gè)模型,得湊非常多的GPU,自然而然把整個(gè)行業(yè)的形態(tài)推成了一個(gè)8卡16卡的服務(wù)器的形態(tài),然后價(jià)格都是上百萬(wàn)的。
但現(xiàn)在CPU的內(nèi)存帶寬也完全能夠滿足大模型的,頂級(jí)的服務(wù)器級(jí)CPU的內(nèi)存帶寬可以達(dá)到1.2TB/s,已經(jīng)超過(guò)RTX 4090(1TB/s)的水平,而且它的容量也比GPU大的多,最重要的是跟動(dòng)輒幾百萬(wàn)的超算相比,內(nèi)存條就相當(dāng)于是不要錢了。
虎嗅:那行業(yè)內(nèi)其他廠商沒(méi)有意識(shí)到這個(gè)問(wèn)題嗎?
季宇:一方面,計(jì)算機(jī)行業(yè)是個(gè)慣性很大的行業(yè),當(dāng)所有人都習(xí)慣用GPU去做訓(xùn)練的時(shí)候,人們自然不愿意輕易嘗試其他方案。
另一方面,可能大家都覺(jué)得用內(nèi)存跑大模型,充其量只能達(dá)到Mac Studio那種水平,沒(méi)法轉(zhuǎn)化為生產(chǎn)力,但我們想通過(guò)極致的軟件優(yōu)化來(lái)把這么高的帶寬水平發(fā)揮出來(lái)。讓大家使用體驗(yàn)真正能達(dá)到,跟一個(gè)超算的體驗(yàn)沒(méi)有什么區(qū)別。
虎嗅:我看到“褐蟻”的配置基本都是公版的,那這個(gè)行業(yè)存在硬件門檻嗎?
季宇:我希望推動(dòng)這個(gè)應(yīng)用普惠,就應(yīng)該用最普通的東西,大家都習(xí)以為常的東西,然后把這樣的一個(gè)事情變成大家都用得起來(lái),我覺(jué)得這才是一個(gè)關(guān)鍵。而不在于說(shuō)你們一定要做一個(gè)什么門檻,然后讓別人都進(jìn)不來(lái),其實(shí)這個(gè)不是我們期望的。
虎嗅:我們現(xiàn)在做的DeepSeek一體機(jī),和行云的核心業(yè)務(wù)(自研GPU),有什么關(guān)聯(lián)性嗎?
季宇:我們自研的GPU,可以進(jìn)一步降低整機(jī)的成本。
舉個(gè)例子,比如現(xiàn)在的CPU和GPU是為了大模型一體機(jī)設(shè)計(jì)的嗎?肯定不是,它的價(jià)值是建立在別的方面,但有些東西我們是可以扔掉的,但是有些東西我們是可以加強(qiáng)的,可能它非常不重要的一件部件,我們是值得強(qiáng)化的,而它很重要、甚至建立整個(gè)價(jià)格梯度的東西,我們是可以拋棄的。
虎嗅:能否展開(kāi)講講,哪些是值得強(qiáng)化的?哪些是可以拋棄的?
季宇:比如CPU里的物理核,很多我們都用不上的,我們今天的重點(diǎn)是DDR內(nèi)存,之是為了把DDR內(nèi)存用起來(lái),才用了這個(gè)CPU,至于它有幾百個(gè)核跟我沒(méi)有關(guān)系,我們只選了一個(gè)32核的,也完全能拉滿內(nèi)存通道帶寬,而我們自己設(shè)計(jì)的芯片就可以把這些多余的物理核去掉,最大程度發(fā)揮DDR內(nèi)存的性能,同時(shí)也能讓成本大幅降低。
虎嗅:對(duì)于應(yīng)用端來(lái)說(shuō),他們會(huì)很看重這種一次性成本嗎?
季宇:如果行業(yè)里都是一臺(tái)上百萬(wàn)的超算,那么行業(yè)可能就會(huì)卡在那邊,大家會(huì)一直在想AI到底能做什么事情,云廠商天天想我到底找什么超級(jí)應(yīng)用?這個(gè)其實(shí)對(duì)所有人都是難受的。大家更在乎就是說(shuō)只要這個(gè)價(jià)位降到一定的水準(zhǔn)之后,這個(gè)行業(yè)是有可能爆發(fā)的。
我可以再舉一個(gè)例子,我們接下來(lái)還會(huì)發(fā)布一個(gè)叫“蟻群”的項(xiàng)目,就是用一堆“褐蟻”去做集群,大概300-400萬(wàn)的預(yù)算,我們就能實(shí)現(xiàn)500-1000的并發(fā),這是什么概念?一千并發(fā)差不多可以支持10萬(wàn)DAU,那意味著很多小的創(chuàng)業(yè)團(tuán)隊(duì)都可以出來(lái)做了,大家一起去挖掘。
本文來(lái)自虎嗅,原文鏈接:https://www.huxiu.com/article/4363270.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.