(本文編譯自electronicdesign)
隨著GPU和其他人工智能(AI)芯片不斷挑戰數據中心的電力極限,防止涌入的電流使系統過載,并造成高昂的中斷成本變得至關重要。
當數據中心中的服務器或其他電子模塊出現故障時,必須進行“熱插拔”,以將停機時間降至最低。在這種情況下,熱插拔是指在機架中的其他服務器繼續運行的同時,移除有故障的硬件并進行更換。
然而,在將服務器插入機架時,這一過程可能會引入大量的浪涌電流。電流的突然增加會給服務器中的處理器、加速器和電源電路帶來壓力,有可能導致組件性能下降甚至出現故障。
為了安全地啟動所有設備,通常會在服務器中安裝一個功率MOSFET,并配備一個電流傳感器和一個數字控制器。它們共同充當系統的斷路器,在啟動時調節浪涌電流,并在正常運行期間跟蹤供電電流,以防止短路或其他任何故障。電源設計師和系統工程師正努力在人工智能服務器有限的的空間內擴展這些熱插拔解決方案。
許多半導體公司正在推出電子熔斷器(eFuse),以安全處理人工智能所消耗的大量電力。它們將功率器件、電流感應和數字控制集成在單個芯片中,提供更智能的電源路徑保護。
功率MOSFET:熱插拔的電源控制開關
在48V架構中,機架內的電源單元(PSU)將用于在數據中心內分配電力的交流電轉換為服務器自身使用的48V直流電。直流電通過沿著機柜后部鋪設的48V背板分配到服務器。如果一臺服務器出現故障,其他服務器會分擔其負載,使系統能夠長時間運行,以便進行熱插拔更換故障服務器。
電路板上的電容器用于平滑電壓紋波并消除噪聲,為人工智能服務器的處理器、內存和其他組件提供穩定的電源。當服務器插入機架時,這些電容器需要盡可能多的電流來為處理器、加速器和其他負載充電,在短時間內會產生大量的浪涌電流。如果電流不加以限制,可能會使服務器中的連接器或其他組件過載,或者導致電壓突然波動,進而使周圍的服務器重啟。
最新的高性能人工智能芯片在運行人工智能訓練和推理時會消耗超過1000瓦的電力,這增加了人工智能服務器所需的電流量。為了在熱插拔過程中安全地啟動所有設備,會在靠近服務器電源連接器的位置安裝一個功率MOSFET,用于開啟或關閉對處理器和其他負載的供電。功率器件的柵極電壓決定了流經它們的電流。
當功率MOSFET關閉時(即柵極電壓(VGS)低于閾值電壓(VTH)時),它會阻止電流流入系統,在服務器進行熱插拔時阻擋浪涌電流。
但當功率MOSFET開啟時(即柵源電壓(VGS)高于閾值電壓(VTH)時),它會允許一定量的恒定電流流入系統。在這種情況下,MOSFET進入飽和區,此時柵源電壓(VGS)是控制漏極電流的主要因素。隨著柵源電壓(VGS)升高,功率MOSFET會將更多電流推向系統中的輸入電容器。隨著電流增加,場效應晶體管(FET)的漏極和源極之間的電壓(VDS)下降,功率器件進入歐姆區,此時電流取決于漏極和源極之間的電阻(RDS(on))。
這些功率場效應晶體管(FET)需要一個較寬的安全工作區(SOA),以防止在熱插拔過程中涌入系統的電流損壞功率器件(或其周圍的組件),或導致其過熱。為了處理更大的電流量,通常會將多個這樣的功率FET并聯放置。通過將電流分散到多個不同的功率FET上,還可以降低它們內部產生的熱量。這一點也很重要,因為高溫會增加場效應晶體管內部的總電阻,從而限制電流。
熱插拔控制器:提供從功率MOSFET到負載的保護
當分流器或其他電流傳感器檢查流入服務器的電流,且MOSFET接通或斷開對服務器的供電時,熱插拔控制器會控制MOSFET,并使其保持在安全工作區(SOA)內。
數字控制器調節功率MOSFET的柵極電壓,以控制在熱插拔過程中涌入系統的電流量。它還用于隨時檢查功率FET中的電流、電壓和溫度,以防止短路或其他故障。其核心是一個可編程定時器,它會限制功率FET在出現故障時保持正常調節的時長。如果故障情況持續時間過長,功率FET就會關閉。功率FET必須有一個較大的安全工作區,以便在定時器運行時限制功率損耗。
熱插拔控制器的主要作用是設置系統的電流限制——在電流超過閾值時,它集成了短路和過流保護(OCP)功能。在許多情況下,這些芯片還提供欠壓鎖定(UVLO)功能——防止由于柵極電壓波動而對功率FET造成損壞,以及過壓保護(OVP)功能——消除電壓尖峰或電源電壓方面的問題。此外,熱插拔控制器通常具有熱保護功能,以防止FET過熱。
許多半導體公司正在推出集成了柵極驅動和電流感應放大器的熱插拔控制器,以便更高效地處理高性能人工智能芯片所使用的大電流。不過,在故障情況下,這些控制器仍需要單獨的功率FET來切斷對負載的供電,同時,分流電阻器或其他電流傳感器要與比較器一起放置在與FET相同的電源軌上。
但在數據中心的電源板元件越來越密集之際,這些解決方案也變得更加復雜。回顧熱插拔保護技術的發展歷程,過去常常使用許多單獨的組件,比如電流感應放大器、比較器、電流傳感器、功率FET,所有這些不同的組件會占用印刷電路板(PCB)上大量的空間,而且工程師們要以一種最大限度提高安全性并將功率損耗降至最低的方式來放置所有組件,這也變得更具挑戰性。
鑒于人工智能芯片的功率需求不斷增長,在故障損壞處理器、加速器或其周圍的組件之前,檢測故障情況并迅速關閉它們也變得更具挑戰性。
高壓直流電源軌上熱插拔的未來
為了應對人工智能不斷增長的功率需求,微軟和其他科技巨頭正試圖將服務器機架中的交流-直流電源轉換器遷移到一個獨立的解耦電源機架中,可以將其稱為“副機架”,它將以高達800伏的直流電而非交流電為服務器機架供電。然后,服務器機架中的直流-直流轉換器會將800伏的電壓轉換為48伏的母線電壓,再將電力輸送給人工智能處理器。此外,還有可能將48伏母線升級為±400伏直流電,這可能需要配備高壓MOSFET和強大隔離功能的電子熔斷器。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.