公眾號記得加星標??,第一時間看推送不會錯過。
在AI模型參數量呈指數級增長的時代背景下,數據中心正經歷一場從"算力至上"向"帶寬驅動"的深刻變革。在這場算力架構革新的浪潮中,HBM(High Bandwidth Memory,高帶寬存儲器)正悄然崛起,成為支撐大模型計算的核心基礎設施。
步入"后AI"時代,HBM已不僅僅是高性能AI芯片(如GPU、TPU)的標配組件,更演變為半導體巨頭間激烈角逐的戰略制高點。
無論是三星、SK海力士,還是美光,這些存儲領域的領軍企業都不約而同地將HBM視為未來營收增長的關鍵引擎。它們似乎達成了一個共識:要想在存儲市場稱霸,就必須率先掌握HBM這一核心技術。
那么,在這場沒有硝煙的競爭中,都有哪些技術值得關注呢?讓我們一起來深入分析分析。
定制化是唯一出路?
定制化可能是HBM的最終歸宿之一。
事實上,早在兩年多以前,HBM初步嶄露頭角之際,海力士和三星就討論過定制化這一趨勢,伴隨著云巨頭紛紛定制自己的AI芯片,對HBM的需求只增不減,定制化借此成為了必然需求之一。
而在去年8月,SK海力士副總裁柳成洙表示:“所有M7(Magnificent 7,指的是標準普爾500指數中的七大科技股:蘋果、微軟、谷歌Alphabet、亞馬遜、Nvidia、Meta和特斯拉。)公司都來找我們,要求我們做定制HBM(高帶寬內存)。”
而在今年6月,韓國媒體表示,SK海力士已同時鎖定了英偉達、微軟(MS)、博通(Broadcom)等有望成為定制HBM市場“重量級客戶”的公司。其近期已與英偉達、微軟、博通達成協議,將向其供應定制型HBM,并已開始根據各家公司的需求開展設計工作。
據悉,SK海力士是以其最大客戶英偉達的供貨計劃為核心,優先確定其他客戶名單。業內人士表示:“考慮到SK海力士的產能以及各大科技公司AI服務的推出時程,無法一口氣滿足M7全部客戶的需求”,但也指出“考慮到HBM市場情況的變動,未來或將新增若干客戶”。
SK海力士也在今年4月宣布,從第七代HBM(HBM4E)開始將轉向定制化,其已和臺積電展開合作。計劃在HBM4基礎裸片上采用臺積電的先進邏輯(Logic)工藝,預計其首批定制HBM產品預計將于明年下半年問世,
值得一提的是,由于SK海力士成功拿下了多家重量級客戶,其在下一代定制HBM市場中延續主導地位的可能性大大提升。根據TrendForce的數據,SK海力士目前在HBM市場的占有率約為50%,遠超三星電子(30%)和美光(20%)。若僅看最新的HBM3E產品,SK海力士的市占率更是高達70%。
另一方面,三星電子也被曝正就定制HBM的供應問題與多家客戶進行討論。鑒于其近期已成功向全球第二大AI芯片廠商AMD供應HBM3E,業界預計其不久后也將拿下HBM4及定制HBM的客戶。據稱,目前三星已在就HBM4產品與博通、AMD等客戶進行具體協商。
與兩家韓國廠商相比,遠在美國的美光顯得遲鈍了不少。今年6月,美光云內存業務部高級副總裁兼總經理 Raj Narasimhan 表示,HBM4 的生產計劃將與客戶的下一代 AI 平臺準備情況緊密結合,以確保無縫集成和及時擴大產量以滿足市場需求。
其表示,除了向主流客戶提供最新的 HBM4 之外,客戶還在尋求定制版本,下一代 HBM4E 的開發也正在進行中。與特定客戶合作開發定制化的 HBM 解決方案,將進一步提升內存產品的價值。
這時候,可能很多人想問了,定制HBM都有哪些好處,為什么DRAM廠商和云巨頭都趨之若鶩呢?
受限需要明確的是,定制化HBM(cHBM)的關鍵在于將基礎芯片(base die)的功能集成進由SoC團隊設計的邏輯芯片(logic die)中。這包括控制I/O接口、管理DRAM堆疊、以及承載用于診斷和維護的直接訪問(DA)端口。
這一集成過程需要與DRAM廠商緊密合作,但它賦予SoC設計人員更大的靈活性和更強的對HBM核心芯片堆棧訪問的控制能力。設計人員可以更緊密地集成內存與處理器芯片,并根據具體應用在功耗、性能與面積(PPA)之間進行優化。
SoC設計人員可以自由配置和實例化自己的HBM內存控制器,通過DFI2TSV橋接與HBM DRAM堆棧直接交互。邏輯芯片還可以集成增強功能,如可編程的高質量內建自測試(BIST)控制器、芯粒間適配器(D2D adapter)以及高速接口(如通用芯粒互連標準 UCIe),從而實現與處理器芯片在完整3D堆棧中的通信。由于該芯片使用邏輯制程而非DRAM制程制造,因此可以復用現有設計。
而定制HBM的一個重要優勢在于顯著減少中介層(interposer)在數據路徑中引入的延遲,降低相關的功耗與性能損失。它通過復用現有的高速裸芯片互連(如UCIe),有效地將內存與處理器芯片距離拉近。這種靈活性可應用于多種場景,比如云服務提供商用于邊緣AI應用,對成本和功耗要求極高的場合,以及用于復雜AI/機器學習計算場景,追求最大容量和吞吐率的系統等。
不過,定制HBM目前也面臨著一些挑戰,其整個理念仍屬新興,技術也處于早期發展階段。如同所有創新一樣,前路必然伴隨挑戰。將基礎芯片功能集成至邏輯芯片意味著終端用戶需從芯片生命周期管理(SLM)的視角考量整個生命周期——從設計、試產、量產,到現場應用。例如,在晶圓級HBM芯片堆疊后,DRAM單元缺陷的篩查責任將落到終端用戶身上。這帶來了一些問題,比如用戶該如何處理供應商推薦的特定DRAM算法?以及用戶能否在計劃性停機期間,進行全面的HBM現場測試與診斷?
目前來看,要成功部署定制HBM,需要一個完整的生態系統,匯集IP提供商、DRAM廠商、SoC設計方以及ATE(自動測試設備)公司。例如,由于互連數量多、密度高,傳統ATE已無法用于定制HBM測試。
總而言之,定制HBM已經成為一大趨勢,不論廠商是否喜歡,它都將在HBM4標準中占據相當重要的地位。
混合鍵合,繞不開的技術難題?
除了定制化外,混合鍵合(Hybrid Bonding)也是未來HBM重要的發展方向之一。
目前,隨著堆疊層數的不斷增加,傳統焊接技術面臨顯著的挑戰。目前所使用的助焊劑(Flux)雖能去除金屬表面氧化物并促進焊料流動,但其殘留物會引發堆疊間隙增大、熱應力集中等問題,尤其在高帶寬內存(HBM)等精密封裝領域,這一矛盾更為突出。
而包括三星、SK海力士甚至是美光,都在考慮在下一代HBM中采用混合鍵合技術。
先來了解一下目前HBM芯片的鍵合技術。在傳統的倒裝芯片鍵合中,芯片被“翻轉”,以便其焊料凸塊(也稱為 C4 凸塊)與半導體基板上的接合焊盤對齊。整個組件被放置在回流爐中,并根據焊料材料均勻加熱至 200oC-250oC 左右。焊料凸塊熔化,在接合和基板之間形成電氣互連。
隨著互連密度的增加和間距縮小到 50μm 以下,倒裝芯片工藝面臨一些挑戰。由于整個芯片封裝都放入烤箱中,芯片和基板會因熱量而以不同的速率膨脹(即不同的熱膨脹系數,CTE),從而產生變形,導致互連出現故障。然后,熔融焊料會擴散到其指定區域之外。
這種現象稱為焊料橋接,會導致相鄰焊盤之間出現不必要的電連接,并可能造成短路,從而導致芯片出現缺陷。這就是TCB(Thermal Compression Bonding 熱壓鍵合)工藝發揮作用的地方,因為它可以解決間距縮小到某個點以下時倒裝芯片工藝出現的問題。
TCB的優勢在于,熱量是通過加熱工具頭局部施加到互連點上,而不是在回流焊爐(倒裝芯片)中均勻施加。這樣可以減少向基板的熱量傳遞,從而降低熱應力和 CTE 挑戰,實現更強大的互連。對芯片施加壓力以提高粘合質量并實現更好的互連。典型的工藝溫度范圍在 150oC-300oC 之間,壓力水平在 10-200MPa 之間。
TCB 允許的接觸密度比倒裝芯片更高,在某些情況下每平方毫米可達到 10,000 個接觸點,但更高精度的主要缺點是吞吐量較低。雖然倒裝芯片機每小時可以達到超過 10,000 個芯片的吞吐量,但 TCB 的吞吐量則在 1,000-3,000 個芯片的范圍內。
標準的 TCB 工藝還需要使用助焊劑。在加熱過程中,銅可能會氧化并導致互連故障,助焊劑是一種用于去除銅氧化物的涂層。但當互連間距縮小到 10μm 以上時,助焊劑會變得更難清除,并會留下粘性殘留物,這會導致互連發生微小變形,從而造成腐蝕和短路。
無助焊劑鍵合技術(Fluxless Bonding)由此應運而生,但無助焊劑鍵合技術只能進一步縮小間距尺寸至20μm,最大可達10μm,僅能作為過渡技術來使用,而當I/O間距小于10μm時,就需要用到混合鍵合技術了。
混合鍵合技術通過銅與銅的直接連接(copper-to-copper bonding),實現DRAM芯片堆疊,無需傳統的凸點(bump)結構,這種方式不僅能顯著縮小芯片尺寸,還能將能效與整體性能提升一倍以上。
據業內人士透露,截至5月7日,三星電子與SK海力士正推進將混合鍵合技術用于其下一代HBM產品的量產。預計三星最快將于明年在HBM4(第六代HBM)中采用該技術,而SK海力士則可能在第七代產品HBM4E中率先引入。
當前的第五代HBM——HBM3E仍使用熱壓鍵合技術,在芯片間通過加熱加壓及凸點連接方式進行固定堆疊。三星主要從其子公司SEMES以及日本新川電機(SHINKAWA)采購TC設備,SK海力士則依賴韓美半導體和韓華半導體。而向英偉達提供HBM的美國美光(Micron)也采購韓美和新川的設備。
隨著混合鍵合市場的初步開啟,該技術有望引發半導體設備領域的一場重大洗牌。一旦成功導入,混合鍵合將可能成為未來HBM堆疊的主流工藝。
為搶占先機,美國的應用材料公司已收購全球唯一具備混合鍵合先進設備量產能力的企業——荷蘭Besi公司9%的股份,并率先將其混合鍵合設備導入系統級半導體市場,搶占應用先機。
與此同時,韓美半導體與韓華半導體也在加速研發下一代芯片堆疊設備,這兩家韓國廠商不僅在迅速推進混合鍵合設備研發,還在積極開發無助焊劑鍵合設備,以此來增強市場競爭力。
如果說定制化HBM是DRAM廠商和云巨頭間的角力的話,那么混合鍵合就是DRAM廠商與鍵合設備廠商之間的對弈,伴隨著HBM在今年下半年正式邁入HBM4時代,混合鍵合所受到的關注度可能會進一步提高。
還有哪些新技術?
值得一提的是,在今年6月,韓國國家級研究機構——韓國科學技術院(KAIST)發布了一份長達371頁的研究論文,系統性地描繪了HBM技術從HBM4一路發展到HBM8的演進路徑。內容涵蓋帶寬、容量、I/O接口寬度、熱設計等方面的提升,以及封裝方式、3D堆疊結構、嵌入式NAND存儲的內存中心架構,甚至包括基于機器學習的功耗控制方法。
值得強調的是,這份文檔并非商業公司發布的產品路線圖,而是基于目前產業趨勢和科研進展,對未來HBM技術潛在演變的學術預測,但它也足以讓我們一窺未來HBM的可能發展方向。
先來看下HBM4至HBM8的各代產品技術特色:
HBM4:定制化設計的先鋒
HBM4作為新一代HBM技術的開端,最大的創新在于定制化基礎裸片設計。通過集成NMC(近存計算)處理器和LPDDR控制器,HBM4實現了對HBM和LPDDR的直接訪問,無需CPU介入。這一設計顯著減少了數據傳輸延遲,提升了整體系統效率。
HBM4支持多種靈活的數據傳輸模式,包括GPU與HBM的直接讀寫、HBM與LPDDR間的數據遷移,以及GPU通過HBM間接訪問LPDDR。雙命令執行能力的引入進一步提升了多任務處理效率,為復雜的AI工作負載提供了有力支撐。
HBM5:3D近存計算的突破
HBM5將3D近存計算技術推向新的高度。通過集成NMC處理器裸片和緩存裸片,并采用專用TSV互連和電源網絡,HBM5實現了高能效的計算架構。分布式電源/接地和熱TSV陣列的引入有效降低了IR壓降,提高了散熱效率。
特別值得關注的是,HBM5開始引入AI設計代理優化技術,通過智能算法優化TSV布局和去耦電容放置,顯著減少了電源噪聲誘導抖動(PSIJ)。這一創新不僅提升了系統穩定性,還為后續產品的智能化設計奠定了基礎。
HBM6:多塔架構的創新
HBM6的最大亮點是四塔(Quad-Tower)架構的引入。四個DRAM堆疊共享一個基礎裸片,通過8,096個I/O通道實現8 TB/s的驚人帶寬。這一架構設計不僅提升了帶寬性能,還通過資源共享提高了成本效益。
L3緩存的集成是HBM6的另一個重要創新。通過減少對HBM的直接訪問需求,L3緩存顯著提升了LLM推理性能。實測數據顯示,HBM6的L3緩存嵌入使HBM訪問減少73%,延遲降低87.3%。交叉開關網絡的引入實現了HBM集群互連,優化了高吞吐量、低延遲的LLM推理性能。
HBM7:混合存儲生態
HBM7構建了一個完整的混合存儲生態系統。通過集成高帶寬閃存(HBF),形成HBM-HBF存儲網絡,總容量達到17.6 TB,能夠滿足大規模AI推理的存儲需求。與3D堆疊LPDDR的結合進一步擴展了存儲層次,在玻璃中介層上實現了4096 GB/s的互連帶寬。
嵌入式冷卻結構的全面應用是HBM7的重要特征。通過熱傳輸線和流體TSV技術,實現了從芯片到冷卻流體的高效熱傳遞。LLM輔助的交互式強化學習(IRL)技術的引入,使得去耦電容放置和PSIJ優化更加智能化和精準化。
HBM8:全3D集成時代
HBM8代表了HBM技術的巔峰,實現了真正的全3D集成和HBM中心計算。雙面中介層設計支持GPU-HBM-HBM、GPU-HBM-HBF和GPU-HBM-LPDDR等多種3D擴展架構,為不同應用場景提供了靈活的配置選擇。
全3D GPU-HBM集成架構是HBM8的核心創新,GPU位于存儲堆疊頂層,不僅有利于散熱,還實現了存儲與計算的無縫融合。AI設計代理的全面應用使得3D布局和布線優化更加智能化,考慮了熱-信號完整性的協同優化。
從整體發展趨勢來看,HBM技術的演進呈現出明顯的量級躍升特征。在帶寬方面,從HBM4的2.0 TB/s到HBM8的64 TB/s,實現了32倍的驚人增長。這一突破主要通過兩個維度實現:一是I/O數量的大幅增加,從2,048個增至16,384個;二是數據速率的穩步提升,從8 Gbps增長至32 Gbps。
而在容量擴展方面,單模塊容量從HBM4的48 GB提升至HBM8的240 GB,這一提升通過增加堆疊層數和單裸片容量共同實現。同時,功耗從75W逐步增長至180W,雖然功耗有所上升,但考慮到性能的大幅提升,整體能效比仍有顯著改善。
關鍵技術創新路徑
HBM技術演進的另一個顯著特征是3D集成技術的持續突破。從HBM4開始,技術路線逐步從傳統的微凸點鍵合過渡到無凸點Cu-Cu直接鍵合技術。這一轉變不僅顯著減少了接觸電阻,還大幅提高了互連密度,為后續的高密度3D堆疊奠定了基礎。
TSV(硅通孔)技術作為3D集成的核心,實現了垂直堆疊裸片間的高效電氣連接。通過縮短互連長度,TSV技術有效降低了RC延遲和功耗,為高帶寬數據傳輸提供了硬件保障。到HBM8階段,同軸TSV技術的引入進一步提升了信號完整性,支持32 Gbps的高速數據傳輸。
中介層技術的發展同樣令人矚目。從單一的硅中介層發展到硅-玻璃混合中介層,這一創新突破了純硅中介層的尺寸限制,同時保持了優異的信號完整性。混合中介層技術結合了硅中介層的高帶寬特性和玻璃中介層的大尺寸擴展能力,為復雜的多塔架構提供了技術支撐。
值得關注的是,隨著HBM性能的不斷提升,散熱問題成為制約技術發展的關鍵瓶頸。HBM技術路線圖展現了一條清晰的冷卻技術演進路徑,從傳統的風冷逐步升級為更加先進的冷卻方案。
HBM4采用直冷式液冷(D2C)技術,直接對芯片進行液體冷卻,相比傳統風冷具有更高的散熱效率。到HBM5和HBM6階段,浸沒式冷卻技術成為主流,將整個模塊浸入絕緣冷卻液中,實現更加均勻和高效的散熱。
最為先進的是HBM7和HBM8采用的嵌入式冷卻技術,通過流體TSV(F-TSV)和微通道結構,實現了芯片級的精準冷卻。這種技術通過熱傳輸線(TTL)將熱量從HBM裸片直接傳遞到冷卻流體,實現了前所未有的散熱效率。
當然,HBM技術的演進帶來了顯著的性能提升。在LLM推理方面,HBM6的四塔架構使LLaMA3-70B模型的推理吞吐量提升126%。在能效方面,HBM7的NMC架構減少了數據移動,使GEMM工作負載的功耗降低30%以上。
系統級擴展能力的提升同樣令人矚目。HBM8的全3D架構支持多GPU-HBM集群,總帶寬可達1,024 TB/s,為Exascale計算提供了強大的存儲支撐。這些性能提升不僅滿足了當前AI應用的需求,還為未來的人工通用智能(AGI)奠定了技術基礎。
從定制化HBM到混合鍵合,從新一代中介層到融合型存儲架構,HBM技術正在加速演進,迭代節奏愈發迅猛。
但在這場高度復雜的技術競賽中,唯有具備系統級視野、并能深度整合多維工藝與生態資源的玩家,才有機會脫穎而出。隨著SK海力士將基礎裸片代工交由臺積電,DRAM廠商在HBM制造流程中的主導能力已逐步減弱。這一技術體系已不再是單一廠商可以獨自完成的任務,而是一個需要多方協同、跨界整合的新戰場。
究竟是SK海力士、三星,還是美光將在未來占據上風,答案仍未揭曉。但可以確定的是,在后AI時代,HBM的競爭才剛剛開始,而且只會愈演愈烈。
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4091期內容,歡迎關注。
加星標??第一時間看推送,小號防走丟
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.