99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

清華翟季冬:DeepSeek 百倍算力效能背后的系統(tǒng)革命 | 智者訪談

0
分享至

一線 AI 洞察,智者深度思考

深入產(chǎn)業(yè)變革,共創(chuàng) AI 未來(lái)



2025 年伊始,全球 AI 業(yè)界被 DeepSeek 刷屏。當(dāng) OpenAI 宣布 5000 億美元的「星際之門」計(jì)劃,Meta 在建規(guī)模超 130 萬(wàn) GPU 的數(shù)據(jù)中心時(shí),這個(gè)來(lái)自中國(guó)的團(tuán)隊(duì)打破了大模型軍備競(jìng)賽的既定邏輯:用 2048 張 H800 GPU,兩個(gè)月訓(xùn)練出了一個(gè)媲美全球頂尖水平的模型。

這一突破不僅撼動(dòng)了英偉達(dá)萬(wàn)億市值,更引發(fā)了整個(gè)行業(yè)的反思:在通往 AGI 的征程上,我們是否過(guò)于盲信算力規(guī)模,而忽視了一條更加務(wù)實(shí)且充滿創(chuàng)新可能的路徑?

與 2023 年「更大即更好」的粗放發(fā)展觀不同,2025 年 AI 發(fā)展或?qū)⒏袷且粓?chǎng)精打細(xì)算的技術(shù)煉金:如何用最少的資源最大化模型效能,如何在特定場(chǎng)景實(shí)現(xiàn)極致效率。DeepSeek 已經(jīng)展現(xiàn)出這種方式的威力——開(kāi)發(fā)者總是傾向于選擇性價(jià)比更高的開(kāi)源方案,當(dāng)千千萬(wàn)萬(wàn)的應(yīng)用都以 DeepSeek 為基座,由此構(gòu)建的生態(tài)將如何重塑 AI 產(chǎn)業(yè)格局?

本期《智者訪談》邀請(qǐng)到清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘教授、高性能計(jì)算研究所所長(zhǎng)翟季冬,深入探討大模型時(shí)代的 AI 算力優(yōu)化之道。翟季冬教授指出,DeepSeek 實(shí)現(xiàn)百倍性價(jià)比提升的一個(gè)重要原因,是其在系統(tǒng)軟件層面的深度創(chuàng)新。

「性能優(yōu)化是一個(gè)無(wú)止境的過(guò)程,」翟季冬教授表示,在中國(guó)面臨算力資源挑戰(zhàn)的背景下,通過(guò)系統(tǒng)軟件創(chuàng)新提升算力效能,是產(chǎn)業(yè)突圍的關(guān)鍵。這不僅需要在編程語(yǔ)言、編譯器、通信庫(kù)、編程框架等多個(gè)技術(shù)層面發(fā)力,更需要建立起完整的基礎(chǔ)軟件體系。

當(dāng)下,一個(gè)值得深思的現(xiàn)象是:盡管 AI 算力需求持續(xù)攀升,但國(guó)內(nèi)眾多智算中心的國(guó)產(chǎn)算力資源卻存在閑置。供需錯(cuò)配的背后,暴露出基礎(chǔ)軟件體系的短板。

但困境也蘊(yùn)含著重要機(jī)遇:如何打通從應(yīng)用到系統(tǒng)軟件,再到自主芯片的完整鏈路,探索出一條符合中國(guó)現(xiàn)實(shí)的發(fā)展路徑?這不僅是技術(shù)創(chuàng)新,更是戰(zhàn)略抉擇。

在算力主導(dǎo) AI 競(jìng)爭(zhēng)力的時(shí)代,如何讓每一份計(jì)算資源都能釋放最大價(jià)值,這個(gè)問(wèn)題本身,與答案同樣重要。

視頻鏈接:https://mp.weixin.qq.com/s/Elby5usJVFjEHU45MNDYWA

時(shí)間戳

03:35

DeepSeek 與算力需求未來(lái)趨勢(shì)

06:41

算力效能評(píng)估新視角

10:26

中美硬件差異下的軟件思考

14:00

為何還沒(méi) Transformer 專用芯片

17:41

萬(wàn)卡集群訓(xùn)練難點(diǎn)

21:01

降本增效:推理優(yōu)化的關(guān)鍵

24:41

Infra 如何為下一代大模型做好準(zhǔn)備

27:19

大規(guī)模異構(gòu)集群的算力管理

29:42

智算供需錯(cuò)配:系統(tǒng)軟件如何補(bǔ)位

訪談文字整理

機(jī)器之心:翟季冬教授好,歡迎做客機(jī)器之心的《智者訪談》。最近在 AI 算力市場(chǎng)出現(xiàn)了很多新的趨勢(shì)。首先,大家討論非常多的,Scaling Law 是不是真撞墻了?其次,隨著 OpenAI o1/o3 模型的推出,通過(guò)增加推理計(jì)算時(shí)間也能夠帶來(lái)模型性能的顯著提升,這也讓我們重新思考,究竟要把算力用在哪里。

可以看到,如何提升算力的利用效率,成為業(yè)界越來(lái)越關(guān)注的議題。非常高興能邀請(qǐng)到您,與我們一同從系統(tǒng)軟件的角度探討算力優(yōu)化之道。

DeepSeek 的啟發(fā):性能優(yōu)化永無(wú)止境

翟季冬:謝謝主持人。非常榮幸來(lái)到機(jī)器之心做交流。Dr. Ilya Sutskever 在一次論壇上表示,我們所知的 Scaling Law 已經(jīng)快走到終點(diǎn)。我認(rèn)為這個(gè)問(wèn)題分幾方面來(lái)看。首先,現(xiàn)在互聯(lián)網(wǎng)上高質(zhì)量的文本數(shù)據(jù)的確是越來(lái)越少,但多模態(tài)數(shù)據(jù)(比如圖片、視頻)還有很多挖掘空間,它們對(duì)未來(lái)模型訓(xùn)練會(huì)產(chǎn)生非常大的影響。

第二,以 OpenAI o1/o3 為代表的復(fù)雜推理系統(tǒng),在后訓(xùn)練階段使用了強(qiáng)化學(xué)習(xí)(RL)等技術(shù),RL 會(huì)生成大量新的數(shù)據(jù),這也導(dǎo)致對(duì)算力的需求持續(xù)增長(zhǎng)。第三,如今訓(xùn)練一個(gè)基座模型,可能需要幾周乃至一兩個(gè)月的時(shí)間,如果有更多算力,幾天就能預(yù)訓(xùn)練出一個(gè)好的模型,這也將極大地改變后期的生產(chǎn)效率。此外,對(duì)于終端的用戶來(lái)說(shuō),大家對(duì)性能,包括對(duì)精度的追求實(shí)際上是無(wú)止境的。

機(jī)器之心:DeepSeek 公司最近在業(yè)界引發(fā)廣泛討論,他們以較低成本訓(xùn)練出了堪比國(guó)外頂尖水平的模型。從公開(kāi)信息來(lái)看,您認(rèn)為這里的提升主要在哪里?

翟季冬:首先是算法層次的創(chuàng)新。他們采用了新的 MoE 架構(gòu),使用了共享專家和大量細(xì)粒度路由專家的架構(gòu)。通過(guò)將通用知識(shí)壓縮到共享專家中,可以減輕路由專家的參數(shù)冗余,提高參數(shù)效率;在保持參數(shù)總量不變的前提下,劃分更多的細(xì)粒度路由專家,通過(guò)靈活地組合路由專家,有助于更準(zhǔn)確和針對(duì)性的進(jìn)行知識(shí)表達(dá)。同時(shí),通過(guò)負(fù)載均衡的算法設(shè)計(jì),有效地緩解了傳統(tǒng) MoE 模型因負(fù)載不均衡帶來(lái)訓(xùn)練效率低下的問(wèn)題。

其次在系統(tǒng)軟件層次,DeepSeek 采用了大量精細(xì)化的系統(tǒng)工程優(yōu)化。例如,在并行策略方面,采用雙向流水的并行機(jī)制,通過(guò)精細(xì)的排布,挖掘了計(jì)算和通信的重疊,有效的降低了流水并行帶來(lái)的氣泡影響;在計(jì)算方面,采用 FP8 等混合精度進(jìn)行計(jì)算,降低計(jì)算復(fù)雜度;在通信方面,采用低精度通信策略以及 token 路由控制等機(jī)制有效降低通信開(kāi)銷。

上述算法和軟件的創(chuàng)新與優(yōu)化,極大地降低了模型的訓(xùn)練成本。DeepSeek 給我們的啟示,更多在于如何在有限的算力情況下,通過(guò)算法和軟件的協(xié)同創(chuàng)新,充分挖掘硬件的極致性能,對(duì)中國(guó)發(fā)展未來(lái)人工智能至關(guān)重要。

從 DeepSeek 的成功可以看出,在大模型領(lǐng)域仍然存在很多可以改進(jìn)的空間。他們的創(chuàng)新涵蓋了從算法、軟件到系統(tǒng)架構(gòu)的多個(gè)層面,為國(guó)內(nèi)大模型的發(fā)展提供了很好的啟發(fā)。

我是做高性能計(jì)算方向出身,我們領(lǐng)域一直在追求應(yīng)用程序的極致性能。之前我在清華帶領(lǐng)學(xué)生參加國(guó)際超算比賽時(shí),每當(dāng)拿到題目,我們就會(huì)不斷思考:當(dāng)你發(fā)現(xiàn)了負(fù)載的某些特點(diǎn)后,如何針對(duì)這些特點(diǎn)進(jìn)行有效優(yōu)化,可能會(huì)帶來(lái)幾十、幾百,甚至上千倍的性能提升。可以說(shuō),性能優(yōu)化是一個(gè)永無(wú)止境的過(guò)程。

在當(dāng)前形勢(shì)下,中國(guó)在算力資源方面面臨很大挑戰(zhàn)。國(guó)外像微軟、X 公司等,投入了 10 萬(wàn)卡甚至更大的規(guī)模,在如此雄厚的算力基礎(chǔ)上,他們可能會(huì)將更多精力放在設(shè)計(jì)更好的模型上,極致的性能優(yōu)化也許并不是他們當(dāng)前的重點(diǎn)。但當(dāng)我們算力有限時(shí),比如固定只有 1 萬(wàn)張加速卡,就需要思考如何更極致地利用好這些硬件,挖掘算法、系統(tǒng),包括硬件等各方面協(xié)同創(chuàng)新的可能性。

機(jī)器之心:追求性能優(yōu)化和模型創(chuàng)新兩種發(fā)展路線是否相互沖突?它們能在同一個(gè)階段共存嗎?

翟季冬:從系統(tǒng)軟件層面來(lái)看,它與算法發(fā)展是解耦的。換句話說(shuō),這些優(yōu)化技術(shù)同樣適用于算力更充足的場(chǎng)景,換到美國(guó)的研究環(huán)境中也可以應(yīng)用,并不會(huì)阻礙上層模型的發(fā)展。

機(jī)器之心:業(yè)界似乎還沒(méi)有一個(gè)客觀評(píng)價(jià)算力利用效率的體系或標(biāo)準(zhǔn)。從您的角度看,我們應(yīng)該如何科學(xué)、客觀地評(píng)價(jià)算力的利用?

翟季冬:這是個(gè)很好的問(wèn)題。現(xiàn)在一些科技報(bào)道中經(jīng)常提到「GPU 利用率」這樣的指標(biāo),但要評(píng)價(jià)一個(gè)系統(tǒng)是否用得好,很難用單一指標(biāo)來(lái)衡量,就像評(píng)價(jià)一個(gè)人不能只看單一維度一樣。

具體來(lái)說(shuō),在大模型訓(xùn)練時(shí),GPU 利用率只是其中一個(gè)方面。在大型集群中,還包括網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備等。僅僅追求 GPU 利用率很高,而網(wǎng)絡(luò)利用效率或內(nèi)存使用率很低,這并不是最優(yōu)的狀態(tài)。從系統(tǒng)軟件優(yōu)化的角度,我們需要追求整體的均衡,可能通過(guò)提高網(wǎng)絡(luò)和內(nèi)存的使用率來(lái)適當(dāng)降低 GPU 消耗。

評(píng)價(jià)標(biāo)準(zhǔn)也因場(chǎng)景而異。在訓(xùn)練場(chǎng)景中,我們更關(guān)注整個(gè)集群(包括加速卡、存儲(chǔ)、網(wǎng)絡(luò)、通信等)的整體利用效率。在推理場(chǎng)景中,終端用戶更關(guān)心延遲,比如是否能在幾毫秒內(nèi)得到響應(yīng),除了第一個(gè) token 的生成延遲,后續(xù)每個(gè) token 之間的間隔時(shí)間也是重要的指標(biāo);算力提供方則更關(guān)注整體吞吐量,比如 1000 張加速卡每天能處理多少請(qǐng)求,是每天能響應(yīng) 100 萬(wàn)個(gè)請(qǐng)求,還是 1000 萬(wàn)個(gè)請(qǐng)求。

一個(gè)經(jīng)常被忽視但很重要的指標(biāo)是成本,特別是每個(gè) token 的處理成本。大家總說(shuō)追求極致性能,但當(dāng)我們將成本約束也納入考慮時(shí),對(duì)系統(tǒng)吞吐量和處理延遲的討論會(huì)更有現(xiàn)實(shí)意義。從長(zhǎng)遠(yuǎn)來(lái)看,顯著降低推理成本對(duì)于推廣 AI 應(yīng)用至關(guān)重要。

中美硬件差異下的算力突圍

系統(tǒng)軟件雙向適配

機(jī)器之心:由于中美之間的硬件差異,大家很關(guān)注軟件棧層面是否會(huì)出現(xiàn)代際分叉,甚至發(fā)展出不同的科技樹(shù)?

翟季冬:中國(guó)確實(shí)在系統(tǒng)軟件方面面臨著不同的思考方向。在美國(guó)和歐洲,AI 基礎(chǔ)設(shè)施主要以 NVIDIA GPU 為主,但在中國(guó),很難獲得最先進(jìn)的 NVIDIA 算力。

NVIDIA GPU 之所以受歡迎,很大程度上歸功于其成熟的生態(tài)系統(tǒng)。我印象很深刻的是,從我讀書時(shí)期開(kāi)始,NVIDIA 就與清華等高校展開(kāi)合作,探索如何更好地在他們的硬件上實(shí)現(xiàn)加速。他們現(xiàn)在的軟件棧也是經(jīng)過(guò)多年積累形成的。相比之下,中國(guó)的 AI 芯片公司大多始于最近幾年,發(fā)展歷程不到十年。

我們還有很長(zhǎng)的路要走,無(wú)論是在底層編譯器優(yōu)化芯片算力,還是在多卡互連的高效通信協(xié)同方面。中國(guó)面臨雙重挑戰(zhàn):一方面需要補(bǔ)齊短板,提升芯片易用性;另一方面由于獲取不到最先進(jìn)的芯片制程工藝,可能會(huì)落后國(guó)外一到兩代。這使得軟件與硬件的協(xié)同優(yōu)化在中國(guó)顯得更為重要,我們需要挖掘所有可能的優(yōu)化空間。

機(jī)器之心:從您的角度看,我們應(yīng)該用什么樣的思路來(lái)應(yīng)對(duì) NVIDIA 建立的軟件生態(tài)壁壘?

翟季冬:作為后來(lái)者,我們首先要學(xué)習(xí)他們?cè)谒阕訋?kù)、編程語(yǔ)言和編譯器方面的先進(jìn)理念。在不違反知識(shí)產(chǎn)權(quán)的前提下,我們可以借鑒這些成果。但也不能完全照搬,而是要有自己的思考。例如,在工藝制程落后的情況下,我們可以在軟件棧方面做些什么?針對(duì)與 NVIDIA 不同的架構(gòu)特點(diǎn),我們是否可以有自己的創(chuàng)新?

如果能夠把從應(yīng)用側(cè)到系統(tǒng)軟件,再到自主研制芯片的整條路徑打通,我相信我們能找到一條適合中國(guó)現(xiàn)實(shí)環(huán)境的可行發(fā)展路線。

從學(xué)術(shù)角度來(lái)說(shuō),我們可以探索開(kāi)發(fā)更好的領(lǐng)域特定編程語(yǔ)言,讓用戶編寫高層代碼時(shí)能自動(dòng)生成更高效的實(shí)現(xiàn)。這里還有很多可以探索的空間,但要實(shí)現(xiàn)商業(yè)落地需要時(shí)間。

機(jī)器之心:說(shuō)到大模型算力優(yōu)化,為什么還沒(méi)有芯片廠商推出 Transformer 專用芯片?您如何看待這個(gè)趨勢(shì)?

翟季冬:我認(rèn)為現(xiàn)在沒(méi)有并不代表將來(lái)沒(méi)有,可能有些公司正在這個(gè)方向上努力。從芯片設(shè)計(jì)到流片再到封裝,整個(gè)過(guò)程成本非常高,必須要有足夠大的市場(chǎng)空間才能支撐這種特定架構(gòu)。

如果大模型最終確實(shí)會(huì)以 Transformer 架構(gòu)為主,那么我們確實(shí)可以設(shè)計(jì)一款完全針對(duì) Transformer 的專用芯片。但目前存在幾個(gè)主要考慮:首先,AI 模型發(fā)展非常迅速,我們無(wú)法確定 Transformer 架構(gòu)是否會(huì)一直保持主流地位,可能還會(huì)出現(xiàn)新的非 Transformer 架構(gòu)。其次,Transformer 本身也在不斷演化,比如 MoE 這樣的稀疏激活模型,以及多模態(tài) MoT(Mixture-of-Transformers)的稀疏特性,這些特性很難在芯片層面直接描述。

回顧最近這一波 AI 發(fā)展,大約從 2012 年至今,最初以卷積神經(jīng)網(wǎng)絡(luò)為主,一些芯片公司專門為卷積設(shè)計(jì)了 ASIC 芯片。但到了 2017 年后,Transformer 架構(gòu)逐漸興起,與卷積有很大的不同,導(dǎo)致之前針對(duì)卷積優(yōu)化的 ASIC 芯片難以適應(yīng)新的架構(gòu)。

值得一提的是,在此過(guò)程中 NVIDIA 雖然也在其芯片架構(gòu)中添加了各種新的硬件模塊,但整體架構(gòu)保持相對(duì)穩(wěn)定,通過(guò)系統(tǒng)軟件來(lái)適應(yīng)應(yīng)用的變化,比如他們的 Tensor Core 針對(duì)矩陣乘法進(jìn)行優(yōu)化,而不是專門為 Transformer 的某個(gè)組件(如 Attention)設(shè)計(jì)特定架構(gòu)。

機(jī)器之心:NVIDIA 的做法能給我們帶來(lái)什么啟示?

翟季冬:從軟件角度來(lái)說(shuō),最大的啟示是以不變應(yīng)萬(wàn)變。專用硬件的設(shè)計(jì)思路,本質(zhì)上是把具體的算法用電路去實(shí)現(xiàn),但設(shè)計(jì)的關(guān)鍵在于如何把這個(gè)具體的算法拆解成合適的、通用的基本硬件單元,以便各種應(yīng)用都能通過(guò)這些基本單元來(lái)實(shí)現(xiàn)。例如,NVIDIA 的 Tensor Core 就是將各種操作都轉(zhuǎn)換成矩陣乘法,這種映射方式相對(duì)更靈活。

拆解的核心在于粒度要恰到好處:粒度過(guò)大,小型應(yīng)用難以有效利用硬件資源,造成浪費(fèi)且性能下降;粒度過(guò)小,則會(huì)增加數(shù)據(jù)搬運(yùn)和調(diào)度開(kāi)銷,降低整體效率,并增加硬件和軟件的復(fù)雜度。這是一個(gè)需要權(quán)衡的設(shè)計(jì)選擇。

機(jī)器之心:現(xiàn)在很多公司一方面投資現(xiàn)有基礎(chǔ)設(shè)施購(gòu)買各類計(jì)算卡,一方面也在與高校合作并投資創(chuàng)業(yè)公司,以應(yīng)對(duì)非 Transformer 架構(gòu)帶來(lái)的挑戰(zhàn)。從系統(tǒng)軟件層面來(lái)看,這種布局能在多大程度上應(yīng)對(duì)下一代技術(shù)的沖擊?

翟季冬:系統(tǒng)軟件的本質(zhì)是將上層應(yīng)用程序更好地映射到底層硬件。一方面要關(guān)注應(yīng)用層面的變化,比如現(xiàn)在多模態(tài)模型越來(lái)越重要,我們就需要思考多模態(tài)帶來(lái)的新模式和負(fù)載特征,同時(shí)要關(guān)注底層架構(gòu)的演進(jìn),無(wú)論是 NVIDIA GPU 還是國(guó)產(chǎn)加速卡,都可能會(huì)增加新的計(jì)算單元或訪存單元,我們需要思考如何更好地利用這些硬件特性。

系統(tǒng)軟件的核心任務(wù)是密切關(guān)注上下層的變化,通過(guò)中間層的合理設(shè)計(jì)將兩端匹配起來(lái),讓硬件效率發(fā)揮到極致。對(duì)于正在探索的新型模型,我們需要分析它們的負(fù)載特征,研究如何更好地映射到底層芯片以充分利用硬件資源。

從提前布局的角度來(lái)說(shuō),系統(tǒng)軟件要做好新興應(yīng)用負(fù)載的分析。同時(shí),當(dāng)新的芯片架構(gòu)出現(xiàn)時(shí),系統(tǒng)軟件也要及時(shí)做出相應(yīng)的改進(jìn)和適配。這種雙向的適配能力,是系統(tǒng)軟件應(yīng)對(duì)技術(shù)變革的關(guān)鍵。

萬(wàn)卡集群時(shí)代的算力優(yōu)化

機(jī)器之心:您參與了多個(gè)基座大模型的訓(xùn)練,在使用萬(wàn)卡級(jí)集群方面有第一手經(jīng)驗(yàn),能否分享一下在這種超大規(guī)模訓(xùn)練中遇到的主要技術(shù)挑戰(zhàn)?

翟季冬:2021 年,我們與北京智源研究院等機(jī)構(gòu)合作,使用新一代神威超算系統(tǒng)進(jìn)行一個(gè)基座大模型的訓(xùn)練,可以把它理解為一個(gè) 10 萬(wàn)卡的集群。在這個(gè)過(guò)程中,我體會(huì)到大模型訓(xùn)練主要有幾方面的挑戰(zhàn)。

首先是并行策略的選擇。因?yàn)槟P秃艽螅?10 萬(wàn)臺(tái)機(jī)器去做,就要把模型進(jìn)行切分,就像把一塊豆腐要切成很多塊,可以切成方塊,也可以切成細(xì)條,原理是一樣的。要把一個(gè)大模型分到 10 萬(wàn)臺(tái)機(jī)器上,也有很多切分方式。用術(shù)語(yǔ)來(lái)講,比如說(shuō)有數(shù)據(jù)并行、模型并行、流水線并行、序列并行等等,每個(gè)并行策略都有自己的優(yōu)缺點(diǎn)。在 10 萬(wàn)臺(tái)機(jī)器上,如何組合這些并行策略,本身就是很大的挑戰(zhàn)。而且 10 萬(wàn)規(guī)模的集群,沒(méi)辦法像單卡那樣反復(fù)測(cè)試各種策略,一定要把策略分析清楚了才去跑,因?yàn)橐淮蔚臏y(cè)試成本就很高,也不允許做太多次嘗試。

第二個(gè)挑戰(zhàn)是通信問(wèn)題。10萬(wàn)臺(tái)機(jī)器需要通過(guò)高速網(wǎng)絡(luò)互連,但不同的機(jī)器組網(wǎng)方式不一樣,網(wǎng)絡(luò)的拓?fù)涫遣灰粯拥摹4竽P陀?xùn)練時(shí)有很多通信函數(shù),這些通信函數(shù)如何跟底層的網(wǎng)絡(luò)拓?fù)涓咝в成涫且淮筇魬?zhàn)。我們發(fā)現(xiàn),不同的通信策略可能導(dǎo)致 1-2 倍的性能差異。

第三個(gè)挑戰(zhàn)是容錯(cuò)機(jī)制。當(dāng)機(jī)器規(guī)模增大,整個(gè)系統(tǒng)平均無(wú)故障時(shí)間就會(huì)非常小。基座模型訓(xùn)練通常需要幾周到一兩個(gè)月。我們必須設(shè)計(jì)輕量級(jí)的容錯(cuò)機(jī)制,在硬件出現(xiàn)故障時(shí)能夠快速替換出錯(cuò)的卡并繼續(xù)訓(xùn)練,同時(shí)將這個(gè)開(kāi)銷降得越低越好。

最后,單卡性能也至關(guān)重要。在關(guān)注萬(wàn)卡、10 萬(wàn)卡這類整體系統(tǒng)的同時(shí),也要把單卡效率打得特別高,比如通過(guò)編譯優(yōu)化等策略,確保每張卡都能發(fā)揮出極致性能。

機(jī)器之心:在提升算力利用率方面,我們應(yīng)該關(guān)注哪些點(diǎn)?

翟季冬:大模型的生命周期包含多個(gè)階段,每個(gè)階段對(duì)算力的需求都不相同。我們剛才談了預(yù)訓(xùn)練,但在預(yù)訓(xùn)練模型完成后,還有一個(gè)很重要的階段就是后訓(xùn)練(post training)。以 OpenAI o1/o3 為代表的后訓(xùn)練技術(shù),為整個(gè)訓(xùn)練過(guò)程帶來(lái)了新的挑戰(zhàn)。

后訓(xùn)練包括生成階段、推理階段和微調(diào)階段,每個(gè)階段的負(fù)載特點(diǎn)都不同,最優(yōu)的并行策略也會(huì)不同。需要注意的是,不能簡(jiǎn)單地追求每個(gè)階段的局部最優(yōu),因?yàn)殡A段之間的切換也會(huì)產(chǎn)生開(kāi)銷。我們要從整個(gè) pipeline 的角度來(lái)考慮優(yōu)化策略。后訓(xùn)練還面臨著負(fù)載不均衡的問(wèn)題,需要探索如何有效重疊不同階段以提高資源利用率。

在微調(diào)階段,客戶往往會(huì)用自己的私有數(shù)據(jù)對(duì)基座模型進(jìn)行調(diào)整。由于硬件資源可能有限,這時(shí)需要考慮一些特殊的策略,比如 offloading,也即當(dāng) GPU 內(nèi)存不足時(shí),將部分參數(shù)存儲(chǔ)在 CPU 端。微調(diào)本身作為一個(gè)訓(xùn)練過(guò)程,對(duì)并行策略也有很高要求。

推理階段的優(yōu)化面臨更多挑戰(zhàn):

  • KV Cache 管理:推理過(guò)程會(huì)產(chǎn)生大量中間結(jié)果(KV Cache)用于降低計(jì)算量。如何管理這些數(shù)據(jù)很關(guān)鍵,比如可以采用頁(yè)面式管理,但頁(yè)面大小是固定還是根據(jù)負(fù)載特征動(dòng)態(tài)調(diào)整,都需要仔細(xì)設(shè)計(jì)。
  • 多卡協(xié)同:當(dāng)模型較大時(shí)需要多 GPU 配合,比如在 8 個(gè) GPU 上進(jìn)行大模型推理,如何優(yōu)化卡間并行也是一大挑戰(zhàn)。
  • 算法優(yōu)化:還可以從量化等角度進(jìn)行優(yōu)化,充分發(fā)揮底層算力性能。

總的來(lái)說(shuō),從預(yù)訓(xùn)練到后訓(xùn)練,再到微調(diào)和推理,每個(gè)階段對(duì)算力的要求都不同,我們需要針對(duì)這些特點(diǎn)進(jìn)行深入的優(yōu)化。

機(jī)器之心:如果要建設(shè)百萬(wàn)卡集群,是選擇多家廠商的卡,還是只選擇少數(shù)廠商乃至單獨(dú)一家的卡更好?

翟季冬:從管理和使用效能的角度來(lái)說(shuō),選擇單一類型的加速卡無(wú)疑是最方便的。但實(shí)際情況往往更加復(fù)雜。比如說(shuō)在美國(guó),企業(yè)可能先購(gòu)入 1000 張 A100,后來(lái)又添置 1000 張 H100。不同代際的加速卡存在性能差異,整合使用時(shí)就會(huì)帶來(lái)系統(tǒng)優(yōu)化的挑戰(zhàn),而且這個(gè)問(wèn)題在訓(xùn)練和推理場(chǎng)景下的表現(xiàn)也不盡相同。

從系統(tǒng)軟件角度看,這實(shí)際上是芯片碎片化的挑戰(zhàn)。我目前正在負(fù)責(zé)一個(gè)項(xiàng)目,面向異構(gòu)芯片的統(tǒng)一編程和編譯優(yōu)化。核心理念是,雖然底層使用不同的 AI 芯片,但在編程模型和編譯優(yōu)化層面要盡可能統(tǒng)一。我們希望同一套程序能在不同加速卡上都發(fā)揮出高效性能,同時(shí)降低不同加速卡間的移植開(kāi)銷。

很多人都說(shuō)過(guò),希望算力像水電一樣成為基礎(chǔ)設(shè)施。用電時(shí)我們并不需要關(guān)心是風(fēng)力發(fā)電還是煤炭發(fā)電。要實(shí)現(xiàn)這個(gè)目標(biāo),實(shí)際上有很長(zhǎng)的路要走,我們需要做好中間層的軟件工作。此外,還要建立完善的算力度量標(biāo)準(zhǔn),比如如何計(jì)算算力使用量,如何計(jì)價(jià),這些都需要標(biāo)準(zhǔn)化。

在現(xiàn)階段,我們還是需要關(guān)注底層硬件的具體情況。但未來(lái)的發(fā)展方向是,通過(guò)完善中間層的系統(tǒng)軟件,為用戶提供透明的接口。用戶只需要調(diào)用簡(jiǎn)單的 API 就能方便使用各種算力資源,不必關(guān)心底層細(xì)節(jié)。這可能是一個(gè)終極的發(fā)展方向。

機(jī)器之心:那我們把時(shí)間拉近一些,未來(lái) 1-3 年內(nèi),系統(tǒng)軟件優(yōu)化方面可能會(huì)看到哪些顯著趨勢(shì)或變化?

翟季冬:目前我國(guó)各省市建立了許多智算中心,以國(guó)產(chǎn)算力為主。我們觀察到一個(gè)現(xiàn)象是,盡管應(yīng)用開(kāi)發(fā)者普遍缺乏算力資源,但許多國(guó)產(chǎn)算力中心卻存在閑置現(xiàn)象。用戶更傾向于使用 NVIDIA 這樣開(kāi)箱即用的解決方案。

這種狀況其實(shí)帶來(lái)了重要機(jī)遇:如何將巨大的算力需求與現(xiàn)有的國(guó)產(chǎn)算力有效對(duì)接?我們的目標(biāo)是讓國(guó)產(chǎn)算力達(dá)到同樣的易用性,使用戶感受不到差異。這不僅能促進(jìn)人工智能在中國(guó)各行各業(yè)的發(fā)展,也能帶動(dòng)從芯片到軟件再到應(yīng)用的整體發(fā)展。

為此,我們實(shí)驗(yàn)室孵化了一家公司「清程極智」,致力于為國(guó)產(chǎn)閑置算力提供更友好的接口,幫助行業(yè)用戶方便地整合各類國(guó)產(chǎn)算力資源。

從技術(shù)層面來(lái)說(shuō),這不僅僅是優(yōu)化算子庫(kù)那么簡(jiǎn)單。系統(tǒng)軟件的完整建設(shè)應(yīng)該包括編程語(yǔ)言、編譯器、通信庫(kù)、并行計(jì)算、編程框架,這些方向都需要投入。就像木桶效應(yīng),任何一個(gè)短板都可能影響芯片的整體使用效果。要充分發(fā)揮國(guó)產(chǎn)算力的性能,我們需要在這些方向全面發(fā)力,才能真正把算力這個(gè)方向做好。

嘉賓簡(jiǎn)介

翟季冬,清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘教授,博士生導(dǎo)師,高性能計(jì)算研究所所長(zhǎng)。青海大學(xué)計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)院院長(zhǎng)。CCF高性能計(jì)算專委副主任、CCF杰出會(huì)員。清程極智首席科學(xué)家。

主要研究領(lǐng)域包括并行計(jì)算、編程模型與編譯優(yōu)化。在并行計(jì)算與系統(tǒng)領(lǐng)域頂級(jí)會(huì)議和期刊發(fā)表論文 100 余篇,出版專著一部。研究成果獲 IEEE TPDS 2021 最佳論文獎(jiǎng)、IEEE CLUSTER 2021 最佳論文獎(jiǎng)、ACM ICS 2021 最佳學(xué)生論文獎(jiǎng)等。擔(dān)任清華大學(xué)學(xué)生超算團(tuán)隊(duì)教練,指導(dǎo)的團(tuán)隊(duì) 15 次獲得世界冠軍。獲教育部科技進(jìn)步一等獎(jiǎng)、中國(guó)計(jì)算機(jī)學(xué)會(huì)自然科學(xué)一等獎(jiǎng)、CCF-IEEE CS 青年科學(xué)家獎(jiǎng)、高校計(jì)算機(jī)專業(yè)優(yōu)秀教師獎(jiǎng)勵(lì)計(jì)劃。國(guó)家杰出青年科學(xué)基金獲得者。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗被打了,為何盟友們沒(méi)一個(gè)出來(lái)幫忙?

伊朗被打了,為何盟友們沒(méi)一個(gè)出來(lái)幫忙?

黑噪音
2025-06-20 10:57:41
跌至第三!首個(gè)季度GDP對(duì)比:美國(guó)7.32萬(wàn)億,歐盟4.85萬(wàn)億,中國(guó)呢

跌至第三!首個(gè)季度GDP對(duì)比:美國(guó)7.32萬(wàn)億,歐盟4.85萬(wàn)億,中國(guó)呢

張嘴說(shuō)財(cái)經(jīng)
2025-06-21 11:41:26
內(nèi)賈德及其家人突傳死訊

內(nèi)賈德及其家人突傳死訊

高博新視野
2025-06-19 16:30:07
美媒:美軍出動(dòng)6架B-2轟炸機(jī) 或帶巨型鉆地彈打擊伊朗

美媒:美軍出動(dòng)6架B-2轟炸機(jī) 或帶巨型鉆地彈打擊伊朗

新京報(bào)
2025-06-21 23:15:21
森林是不是越多越好?3.06億年前的地球,早就交了一次昂貴的學(xué)費(fèi)

森林是不是越多越好?3.06億年前的地球,早就交了一次昂貴的學(xué)費(fèi)

半解智士
2025-06-20 19:12:01
反擊不隔夜!英戰(zhàn)艦過(guò)航臺(tái)海當(dāng)天,中國(guó)發(fā)聲支持阿根廷對(duì)馬島主權(quán)

反擊不隔夜!英戰(zhàn)艦過(guò)航臺(tái)海當(dāng)天,中國(guó)發(fā)聲支持阿根廷對(duì)馬島主權(quán)

南宗歷史
2025-06-21 13:14:11
奧尼爾:有次我懟恩比德叫他打球殺到內(nèi)線去,結(jié)果他說(shuō)“現(xiàn)在球員不這么打了”

奧尼爾:有次我懟恩比德叫他打球殺到內(nèi)線去,結(jié)果他說(shuō)“現(xiàn)在球員不這么打了”

雷速體育
2025-06-21 18:04:45
汪峰寧?kù)o牽手風(fēng)波升級(jí)!女友森林北評(píng)論區(qū)淪陷,兩人疑似已經(jīng)分手

汪峰寧?kù)o牽手風(fēng)波升級(jí)!女友森林北評(píng)論區(qū)淪陷,兩人疑似已經(jīng)分手

小seven的囧囧啊
2025-06-20 16:16:59
什么叫人走茶涼?看看小楊哥倆兄弟和他徒弟們現(xiàn)狀就明白了

什么叫人走茶涼?看看小楊哥倆兄弟和他徒弟們現(xiàn)狀就明白了

玫瑰講娛
2025-06-20 14:39:10
安克充電寶的信任雪崩:中美雙線大面積召回,質(zhì)檢漏洞長(zhǎng)達(dá)十年

安克充電寶的信任雪崩:中美雙線大面積召回,質(zhì)檢漏洞長(zhǎng)達(dá)十年

全球財(cái)說(shuō)
2025-06-21 11:04:21
局勢(shì)仍在惡化!6月18日,美英艦艇已堵在東海,中俄都躲不過(guò)?

局勢(shì)仍在惡化!6月18日,美英艦艇已堵在東海,中俄都躲不過(guò)?

阿芒娛樂(lè)說(shuō)
2025-06-21 13:28:07
普京:俄羅斯愿與中國(guó)開(kāi)展全面合作

普京:俄羅斯愿與中國(guó)開(kāi)展全面合作

澎湃新聞
2025-06-21 00:08:04
75歲老太擺攤賣菜被罰1萬(wàn),她交錢果斷離去,次日城管接到100個(gè)電話

75歲老太擺攤賣菜被罰1萬(wàn),她交錢果斷離去,次日城管接到100個(gè)電話

嘮叨情感屋
2025-06-17 10:56:01
37歲王思聰在日本和女友吃咖喱,下頜后縮嚴(yán)重,像動(dòng)畫片里的樹(shù)懶

37歲王思聰在日本和女友吃咖喱,下頜后縮嚴(yán)重,像動(dòng)畫片里的樹(shù)懶

大笑江湖史
2025-06-21 18:02:40
去了趟敦煌莫高窟,真心建議:不要隨便去莫高窟,除非你知道這些

去了趟敦煌莫高窟,真心建議:不要隨便去莫高窟,除非你知道這些

i書與房
2025-05-27 10:07:36
官方通報(bào):區(qū)政府辦主任王華倫,違規(guī)出入娛樂(lè)場(chǎng)所

官方通報(bào):區(qū)政府辦主任王華倫,違規(guī)出入娛樂(lè)場(chǎng)所

新京報(bào)政事兒
2025-06-21 17:49:36
阿里納斯:克萊有四冠 但分衛(wèi)排名中總有兩個(gè)無(wú)冠球員排他前面

阿里納斯:克萊有四冠 但分衛(wèi)排名中總有兩個(gè)無(wú)冠球員排他前面

直播吧
2025-06-21 20:37:23
爆料稱iPhone 18 Pro將迎屏幕變革,靈動(dòng)島或成歷史

爆料稱iPhone 18 Pro將迎屏幕變革,靈動(dòng)島或成歷史

環(huán)球網(wǎng)資訊
2025-06-20 11:05:17
從嚴(yán)查“違規(guī)吃喝”到嚴(yán)查“混日子”:為什么年輕干部成了新焦點(diǎn)

從嚴(yán)查“違規(guī)吃喝”到嚴(yán)查“混日子”:為什么年輕干部成了新焦點(diǎn)

李昕言溫度空間
2025-06-21 15:37:16
郭德綱率德云社在荷蘭海牙商演,再次遭到了由來(lái)已久的諷刺聲

郭德綱率德云社在荷蘭海牙商演,再次遭到了由來(lái)已久的諷刺聲

快樂(lè)的小青瓦
2025-06-20 13:57:26
2025-06-21 23:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10687文章數(shù) 142343關(guān)注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購(gòu)

頭條要聞

官方通報(bào)那爾那茜有關(guān)情況:涉嫌高考報(bào)名材料造假

頭條要聞

官方通報(bào)那爾那茜有關(guān)情況:涉嫌高考報(bào)名材料造假

體育要聞

王欣瑜:資格賽差點(diǎn)要退賽 夢(mèng)幻般的一周

娛樂(lè)要聞

離婚7年,楊冪逆襲碾壓劉愷威

財(cái)經(jīng)要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態(tài)度原創(chuàng)

游戲
藝術(shù)
手機(jī)
公開(kāi)課
軍事航空

韓國(guó)虛幻5重磅動(dòng)作新作來(lái)了!上架多平臺(tái) 2026發(fā)售

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機(jī)要聞

曝REDMI K90系列影像新升級(jí):評(píng)估豪威OV50Q主攝

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗展示破壞力最強(qiáng)導(dǎo)彈

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 青海省| 会昌县| 大埔区| 罗定市| 广饶县| 柯坪县| 灌云县| 江口县| 闻喜县| 公安县| 九龙县| 南江县| 海城市| 南川市| 三都| 楚雄市| 辽中县| 常宁市| 桃园县| 无为县| 屯昌县| 怀柔区| 象山县| 长葛市| 吴忠市| 台州市| 德兴市| 寻乌县| 通海县| 航空| 江山市| 宿松县| 利辛县| 保亭| 陵水| 渭南市| 晋城| 社会| 临汾市| 乌鲁木齐市| 南城县|