隨著人工智能模型的計(jì)算需求不斷飆升,傳統(tǒng)的內(nèi)存技術(shù)正面臨前所未有的挑戰(zhàn)。為了滿(mǎn)足日益增長(zhǎng)的數(shù)據(jù)吞吐需求,一種叫做“高帶寬內(nèi)存(HBM)”的新型內(nèi)存結(jié)構(gòu)正迅速成為高性能計(jì)算和AI訓(xùn)練的“標(biāo)配”。然而,HBM帶來(lái)的不僅是性能的大幅躍升,也引發(fā)了一個(gè)新的問(wèn)題:過(guò)熱。
韓國(guó)科學(xué)技術(shù)研究院(KAIST)的Joungho Kim教授最近在接受《The Elec》采訪時(shí)指出,“冷卻技術(shù)將成為未來(lái)HBM技術(shù)競(jìng)爭(zhēng)的關(guān)鍵。”這意味著,未來(lái)芯片性能的差異,不再僅僅依靠誰(shuí)的運(yùn)算更快,而是誰(shuí)的冷卻做得更好。
什么是HBM?為什么它會(huì)“發(fā)熱”?
HBM(High Bandwidth Memory)是一種將多個(gè)DRAM芯片垂直堆疊,并通過(guò)硅通孔(TSV)進(jìn)行高速連接的三維內(nèi)存結(jié)構(gòu)。相比傳統(tǒng)的DDR內(nèi)存,HBM擁有更高的數(shù)據(jù)傳輸速度、更小的占板面積,并且功耗更低。
在目前的AI芯片中,比如NVIDIA的H100或AMD的MI300系列,HBM已經(jīng)成為核心配置之一。尤其是在訓(xùn)練像GPT-4或大模型時(shí),HBM能將數(shù)千億參數(shù)的訪問(wèn)延遲降低到極小。但問(wèn)題也隨之而來(lái):數(shù)據(jù)吞吐越快,發(fā)熱就越多。
冷卻問(wèn)題從HBM4開(kāi)始變得嚴(yán)重
Kim教授指出,從HBM4開(kāi)始,內(nèi)存不僅承擔(dān)存儲(chǔ)功能,還開(kāi)始“協(xié)助”GPU處理部分計(jì)算工作。這讓位于芯片底部的“基座芯片”(base die)溫度明顯升高。尤其是在多堆疊(如16層、20層)的HBM結(jié)構(gòu)中,散熱路徑更長(zhǎng),熱量更難以釋放。
當(dāng)前普遍使用的冷卻方法是“頂部液冷”——即通過(guò)在芯片封裝頂部加裝散熱器,然后將冷卻液泵送至熱源。這種方式雖然在HBM2/HBM3階段仍能勝任,但到了HBM4及以后,將逐漸力不從心。
浸沒(méi)式冷卻:HBM5的未來(lái)解法
為了應(yīng)對(duì)更高的熱密度,Kim教授預(yù)計(jì),從HBM5開(kāi)始,冷卻技術(shù)將迎來(lái)根本性變革。
其中一種關(guān)鍵技術(shù)就是浸沒(méi)式冷卻(Immersion Cooling)——讓整個(gè)芯片封裝連同其基座都直接浸泡在絕緣冷卻液中,類(lèi)似于給芯片“泡澡”。這種方式可以讓冷卻液直接接觸熱源,有效將熱量快速帶走,特別適合HBM堆疊密集、熱流密度高的環(huán)境。
值得注意的是,這種冷卻方案不僅是簡(jiǎn)單的“浸泡”,而是要與芯片結(jié)構(gòu)深度集成,因此對(duì)芯片設(shè)計(jì)、封裝方式以及冷卻液材料提出更高要求。
KAIST公布HBM技術(shù)路線圖:2040年直指HBM8
Kim教授領(lǐng)導(dǎo)的KAIST Teralab團(tuán)隊(duì)發(fā)布了一份涵蓋2025年至2040年的HBM技術(shù)發(fā)展路線圖,從HBM4到HBM8,詳細(xì)勾畫(huà)了未來(lái)內(nèi)存系統(tǒng)的冷卻與結(jié)構(gòu)演進(jìn):
- HBM4(2025):輔助計(jì)算,頂部液冷,熱挑戰(zhàn)初顯
- HBM5(~2029):引入浸沒(méi)式冷卻,采用混合鍵合技術(shù)
- HBM6(~2032):混合中介層(玻璃+硅),更高層堆疊
- HBM7(~2035):嵌入式冷卻、液體流通DRAM堆棧
- HBM8(~2040):內(nèi)存直接集成在GPU之上,異構(gòu)架構(gòu)徹底融合
HBM7:讓冷卻液“穿行”芯片堆疊
當(dāng)HBM發(fā)展到第七代,常規(guī)冷卻方式已經(jīng)無(wú)法應(yīng)對(duì)熱量挑戰(zhàn)。Kim教授提出了一種更為激進(jìn)的方案——嵌入式冷卻(Embedded Cooling)。
其核心是讓冷卻液直接穿行在每層DRAM芯片之間。要實(shí)現(xiàn)這種“芯片間流動(dòng)”,需要引入新型的流體通孔(TSV),包括:
- TTV(熱通孔):用于加強(qiáng)垂直方向的散熱;
- TPV(熱穿孔):改善熱流分布;
- 柵極 TSV:優(yōu)化信號(hào)傳輸與熱傳導(dǎo)的協(xié)調(diào)。
這將大幅提升冷卻效率,使HBM堆疊結(jié)構(gòu)不再是“散熱瓶頸”。
HBM與高帶寬閃存(HBF)的融合趨勢(shì)
除了冷卻技術(shù)演進(jìn),未來(lái)的HBM也將逐步融合其他存儲(chǔ)技術(shù)。Kim教授提到,未來(lái)的HBM7及以后版本,可能會(huì)與高帶寬閃存(HBF)融合。
這種結(jié)構(gòu)中,傳統(tǒng)的NAND閃存將模仿HBM的堆疊方式,構(gòu)建高速緩存與非易失存儲(chǔ)共存的架構(gòu),從而提高AI模型的持久性、響應(yīng)速度與容量靈活性。
HBM性能的另一關(guān)鍵:混合鍵合技術(shù)
冷卻不是HBM演進(jìn)唯一的技術(shù)挑戰(zhàn),封裝方式與互聯(lián)結(jié)構(gòu)的提升同樣重要。
Kim教授指出,從HBM6開(kāi)始,業(yè)界將引入混合鍵合(Hybrid Bonding)方式,這種技術(shù)能夠?qū)崿F(xiàn)更小間距、更高密度的垂直連接。與此同時(shí),為了提升信號(hào)完整性和散熱效率,HBM6/7將采用混合中介層結(jié)構(gòu),即用玻璃和硅材料共同構(gòu)建芯片之間的中轉(zhuǎn)平臺(tái)。
據(jù)調(diào)研機(jī)構(gòu)TrendForce指出,當(dāng)前HBM制造商已在考慮是否在HBM4的16層堆疊中試點(diǎn)混合鍵合技術(shù),但大多數(shù)企業(yè)計(jì)劃從HBM5的20層堆疊開(kāi)始正式部署。
內(nèi)存冷卻已成為“新摩爾定律”
過(guò)去幾十年,芯片性能的提升依賴(lài)于晶體管尺寸的不斷縮小,即所謂的“摩爾定律”。然而,進(jìn)入AI計(jì)算時(shí)代后,我們迎來(lái)了一個(gè)新的瓶頸:熱。
從HBM4開(kāi)始,冷卻已不再是簡(jiǎn)單的“輔助手段”,而是芯片架構(gòu)的“第一類(lèi)公民”。是否能讓冷卻系統(tǒng)與芯片深度融合,將直接決定未來(lái)AI計(jì)算的性能上線。
在未來(lái)的AI世界里,冷得快,才是真的快。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.