本文由半導體產業縱橫(ID:ICVIEWS)編譯自semiengineering
設計復雜性的爆炸式增長和周期的縮短給半導體 SOC 設計帶來了持續的挑戰。
隨著人工智能 (AI) 工作負載日益龐大、復雜,用于處理所有數據的各種處理元件對功率的需求也空前高漲。然而,高效可靠地提供這種功率,同時又不損害信號完整性或引入熱瓶頸,卻帶來了半導體歷史上最嚴峻的設計和制造挑戰。
與通用處理器不同,專為 AI 工作負載設計的芯片將密度推向極致。它們將更多晶體管封裝到更小的空間內,同時增加晶體管的總數(通常以芯片的形式)。其結果是更大、更密集的系統級封裝,其中電力傳輸不僅僅是一個電氣問題,而是一個從單個芯片到服務器機架的封裝、材料和系統集成挑戰。
新思科技研究員Godwin Maben 表示:“功耗主要由動態功耗決定,而動態功耗主要受計算和內存之間數據移動的影響。例如,NVIDIA 的 Blackwell 功耗范圍從 700 瓦到 1400 瓦。這使得高效的總線架構和架構創新(例如數據壓縮策略)至關重要。”
由于內存和計算單元之間來回傳輸的數據量巨大,動態功耗占據主導地位。這些傳輸跨越龐大的內存層級結構,使用各種高速互連。但移動所有這些數據是有代價的,這會產生層層疊加的設計約束,從內存層級結構決策一直延伸到電源傳輸網絡 (PDN)。
Imec研發副總裁Julien Ryckaert表示:“隨著我們轉向背面和3D堆疊,熱量變得更加局部化,也更難消散。這種物理壓縮加劇了電遷移和局部熱點等挑戰。”
為了使這些級別的電源傳輸易于處理,多學科設計團隊必須全面思考電壓調節的位置和方式、熱量提取方式、材料在高電流應力下的行為,以及在電遷移和電壓降影響可靠性之前,它們有多少裕度。這些設計決策的復雜性要求 EDA 工具、制造工藝和先進封裝之間進行更緊密的耦合。
新思科技首席架構師 Jay Roy 表示:“如今,高性能計算和 AI 加速器已突破千瓦級界限。設計復雜性的爆炸式增長和周期的縮短給半導體 SOC 設計帶來了持續的挑戰。”
這種在最小化功耗的同時提升性能的追求,正迫使電力輸送模型發生重大變革。這不再僅僅關乎降低電阻,而是關乎對電感行為、熱梯度以及不同膨脹系數材料間耦合的建模。現在,對電壓降、電流瓶頸和熱點的早期預測至關重要,而且必須在實際布局和集成約束的背景下進行。
從橫向到縱向供電
無論多少仿真都無法解決傳統橫向供電固有的局限性。在封裝和印刷電路板上橫向布線大電流電源走線會帶來損耗和空間限制,而這些限制已經無法再擴展。當芯片功耗為 100 或 200 瓦時,這種方法尚可行,但現在卻成了現代 AI 硬件的限制因素。
Saras Micro Devices 首席商務官 Eelco Bergman 表示:“目前的加速卡通常采用橫向供電架構,將數千安培的電流通過長達數厘米的 PCB 走線,從電源模塊傳輸到處理器。由于電流和走線電阻較大,這種方法會導致嚴重的功率損耗和過熱。此外,用于支持不斷增長的總功率、電源軌數量以及關鍵高速信號布線的電路板空間有限。”
圖 1:垂直供電網絡,顯示多域電容器模塊直接嵌入封裝基板。來源:Saras Micro Devices
在這樣的功率水平下,每毫歐姆的電阻都會轉化為必須耗散的數瓦熱量。此外,橫向布線帶來的空間限制常常需要在電源完整性和信號完整性之間做出權衡。在高帶寬系統中,數百條高速SerDes通道與密集的電源層共享電路板空間,這種權衡變得難以維持。
為了克服這些限制,半導體行業正在積極探索垂直供電技術。通過將電源軌或穩壓器直接嵌入芯片下方,并用低阻抗路徑垂直連接,電源到硅片的距離可以顯著縮短。這不僅降低了電壓降和噪聲,還釋放了頂部布線空間,用于傳輸關鍵信號。
Bergman 補充道:“我們看到客戶正在積極探索垂直供電架構,該架構采用嵌入式電壓調節和集成電容解決方案,可以實現局部供電。這些方法可以釋放頂部 PCB 空間,減少寄生損耗,并提高整體供電性能。”
在基板和中介層中使用集成供電層,并結合局部去耦技術,使AI芯片和加速器能夠接收更清潔、更穩定的電源,并減少功率衰減。先進的基板(包括嵌入無源器件的基板)目前正在與硅片本身進行協同設計,以優化阻抗特性和散熱性能。
與此同時,這些技術也帶來了新的可靠性挑戰。通過新材料和垂直結構傳輸大電流需要對電流擁擠、熱循環和材料疲勞進行嚴格的建模。嵌入式功率元件必須承受強烈的熱流,同時還要與敏感信號層保持電氣隔離。這反過來又推動了介電材料、沉積技術和協同設計方法的創新。
先進的封裝和散熱技術
高功率密度直接轉化為熱密度,這可能導致熱點,從而降低可靠性和性能。如果沒有先進的散熱技術,即使是最高效的系統也需要進行熱節流,這會大幅降低性能。
Amkor 公司芯片和倒裝芯片球柵陣列 (FCBGA) 業務部高級總監 Gerard John 表示:“如今的先進封裝采用多尺度熱管理技術來高效散熱。銦合金 TIM 因其約 80 W/mK 的高導熱率而尤為有效。然而,銦 TIM 需要在芯片背面和蓋子底部進行金屬化,通常使用 Ti/Au 或 Ni/Au 等材料。需要回流工藝來在芯片和蓋子之間形成粘合,這有助于降低界面電阻。”
最小化芯片與散熱器之間的熱阻取決于材料和應用技術。均勻的TIM覆蓋和低空洞工藝對于實現芯片內部均勻散熱至關重要。傳統的焊料基TIM正在被高性能金屬合金、相變材料和新型碳基界面材料所取代或補充。
John 表示:“在 TIM 應用中,確保最小空隙至關重要。空隙會嚴重阻礙熱導率,導致熱點并降低器件可靠性。監測 TIM 空隙對于工藝優化和器件篩選至關重要。”
這些解決方案通常針對特定工作負載量身定制。例如,AI 訓練比推理產生更長的持續功率突發,并且需要不同的熱瞬態響應。封裝工程師必須與系統架構師合作,以確保冷卻解決方案與實際運行情況相匹配。
John 指出:“TIM 的選擇通常基于器件功率圖,這些圖會指示出高發熱量區域。通過將 TIM 的屬性與這些圖相匹配,可以實現最佳的熱管理,確保整個器件高效散熱。”
在多芯片系統中,由于熱邏輯塊的接近性,散熱挑戰更加嚴峻。先進的設計正在轉向均熱板、微流體冷卻和雙面散熱技術來應對這種復雜性。每種方法都會帶來新的制造、可靠性和材料集成方面的挑戰,但它們正迅速成為實現大規模人工智能性能的必要工具。
鉬與材料遷移
隨著人工智能加速器對功率和集成度的要求越來越高,傳統的前端材料逐漸顯露出過時的跡象。鎢和銅在局部互連和接觸方面的廣泛應用,一直是其導電性和可制造性的行業標準,但現在,它們在芯片最密集的部分卻受到了限制。
正是在這種背景下,鉬逐漸成為一種關鍵的替代金屬。鉬的電子平均自由程比銅短,在狹窄幾何形狀下的可擴展性也比鎢更好,這使得鉬在先進節點的電阻率和可制造性方面都實現了顯著的提升。
Lam Research公司副總裁兼總經理Kaihan Ashtiani表示:“從傳統的鎢金屬化過渡到鉬金屬化,可顯著提升性能,包括將接觸電阻降低高達50%。鉬電子平均自由程更短,使其在小尺寸應用中更具優勢,顯著降低了緊密互連結構中的電阻問題。”
這意味著,在實際應用中,鉬在局部互連方面尤其具有優勢,因為線寬和間距目前已低于 20 納米。在這種尺寸下,鎢等傳統金屬會增強電子散射,導致有效電阻率和熱負荷更高。相比之下,鉬在受限幾何尺寸下仍能保持良好的導電性能。
對于AI設備而言,這一特性至關重要。隨著越來越多的功能被封裝在更小的平方毫米內,以及垂直堆疊的日益普及,熱量和電阻也越來越局部化。鉬等材料創新有助于緩解這些影響,它既能提升電氣性能,又能簡化與原子層沉積 (ALD) 和化學氣相沉積 (CVD) 工藝的集成,而這些工藝在尖端晶圓廠中已經非常常見。
“當互連尺寸縮小到低于銅等金屬的平均自由程時,由于電子散射更頻繁,電阻會增加,”Ashtiani 說道。“在這種情況下,像鉬這樣平均自由程更短的金屬實際上更受歡迎,因為它在較小的尺寸下也能保持較低的電阻。”
轉向鉬也與業界降低電遷移風險的廣泛努力相一致。在人工智能工作負載中常見的高電流密度下,金屬遷移會隨著時間的推移產生空隙和斷路,這日益成為對可靠性的擔憂。鉬的高熔點和晶粒穩定性有助于抵消這一問題,使其成為長壽命人工智能計算應用的有力候選材料。
雖然鉬尚未普及,但其應用正在加速,尤其是在高功率密度的應用中,例如GPU矩陣引擎和SRAM陣列。鉬在采用背面供電的設備中也越來越受到青睞,因為這些設備中金屬化層的復雜性要求材料具有高度共形性和低電阻率。
背面供電
或許是當今芯片架構中最具變革性的轉變,即轉向背面供電網絡(BSPDN)。BSPDN 不再將電源和信號同時通過頂層金屬層布線,避免它們相互競爭空間,而是通過在晶圓背面引入電源連接來解耦這些功能。
最初的概念由英特爾首次公開提出,名為“電源通孔”,后來逐漸演變成一類更廣泛的技術,并被整個行業廣泛采用。本質上,晶圓背面經過蝕刻以暴露觸點,然后利用這些觸點直接向晶體管供電,繞過信號路由堆棧,從而顯著提高效率。
“背面供電始于在硅片上蝕刻電源通孔,以便從背面直接供電,這有助于降低阻抗,”imec 的 Ryckaert 表示。“雙面晶圓加工為器件尺寸縮小和布線密度開辟了新的機遇,但由于移除了硅片作為散熱器,也帶來了散熱挑戰。”
這種結構重組為AI芯片帶來了幾個關鍵優勢。首先,通過分離電源和信號布線,工程師在布局規劃和時序優化方面獲得了更大的靈活性。信號層可以擴展或微調,而無需擔心電源分布的限制。其次,它可以實現更薄、更均勻的電網,從而降低IR壓降并使電壓調節更加可預測。
“供電曾經是眾多考慮因素之一,”Ryckaert補充道。“現在,它決定了整個布局規劃。背面PDN有助于緩解布線擁堵,實現更高的晶體管密度,但它們也增加了功率密度,這使得熱管理比以往任何時候都更加重要。”
此外,背面處理技術為冷卻帶來了新的選擇。由于硅基板不再成為散熱的障礙,設計人員可以實施雙面冷卻策略,即在芯片的兩側都應用熱界面。
然而,背面供電并非沒有挑戰。它需要全新的工藝流程和材料改進,包括晶圓減薄、硅通孔 (TSV) 對準、混合鍵合以及極其脆弱的芯片處理。這些結構的機械可靠性仍在研究中,良率優化仍然是大規模應用的障礙。
設計協同優化及其系統級影響
盡管背面電源、鉬互連和垂直PDN技術前景廣闊,但這些進步并非孤立發生。下一代AI芯片將需要在整個設計堆棧中采用更緊密集成的方法,并使用通常稱為系統技術協同優化(STCO)的技術。
在該模型中,硅片架構師、封裝工程師和系統設計師從最初的設計階段就開始協作。供電網絡、熱分布、機械應力和布局規劃必須建模為相互依賴的系統,而不是流程中的連續步驟。
Synopsys 的 Maben 表示:“功耗感知協同設計正變得越來越重要。它有助于平衡熱性能和時序收斂,使客戶能夠在最終產品中實現更高的效率和可靠性。”
在系統層面,這些優化具有廣泛的影響。例如,熱節流是AI芯片性能的最大威脅之一。如果不能有效預測和緩解局部發熱,即使設計精良的系統在實際應用中也可能表現不佳。
Synopsys 的 Roy 表示:“上游供電效率的輕微提升可以防止下游的熱性能下降。我們的目標是讓工程師盡早了解這些系統的相互作用,從而確保可靠性是內在的,而不是外加的。”
這影響遠不止芯片本身。系統集成商必須考慮整個堆疊(包括芯片、中介層、基板和 PCB)的 PDN 阻抗。信號完整性、板級去耦和機箱級氣流都會影響高能效芯片在實際應用中能否達到預期性能。
這些限制提升了協同仿真和跨域反饋回路的重要性。電壓完整性和電磁干擾 (EMI) 現在與熱仿真、材料建模和功耗感知驗證直接相關。為此,一些芯片制造商正在將封裝和系統工程團隊納入內部,或將其嵌入芯片設計團隊,以加快迭代并確保一致性。
除了技術協調之外,經濟激勵也推動著協同優化。通過增加過大的電容、加寬電源層或過度設計的VRM來過度配置供電系統,會占用原本可以用于計算的電路板空間和資源。
Saras 公司的 Bergman 表示:“降低 IR 壓降并提高供電效率,直接意味著減少發熱量并降低冷卻成本。這對于超大規模數據中心來說,是一種直接的成本優勢。”
結論
隨著人工智能需求的增長,優化每一瓦功率以及每一美元交付成本的壓力只會越來越大。這意味著電力輸送不再是后端考慮的問題,而是已成為影響人工智能芯片設計和制造方式的前沿制約因素。隨著人工智能芯片進入千瓦級,業界必須重新思考從材料到布局、從晶圓鍵合到散熱等方方面面。背面供電網絡、鉬互連和垂直集成基板等創新僅僅是個開始。
AI 芯片供電的未來發展需要跨學科的深度協作。隨著工程師們應對下一代供電的多物理場特性,圍繞硅片、封裝和系統設計構建的各自為政的局面正在逐漸瓦解。雖然這些解決方案的成本和復雜性很高,但其回報——以性能、效率和可擴展性衡量——將是巨大的。
*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯系后臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.