編者按:
近日,暨展覽會暨第11屆中國(上海)國際數據中心產業展覽會、第6屆中國數據中心綠色能源大會在上海新國際博覽中心順利舉辦。
2025中國智算中心全棧技術大會以“全棧智算算存網加速進化”為主題。維云科技總經理袁欣,在此次大會上做了主題為《智算設備的“售后時代” GPU維修與液冷運維的服務重塑》的精彩演講。
本文根據袁欣的演講全文進行整理,略有刪減。
在過去的幾個月中,AI行業關注的焦點已經從大模型的參數量,悄悄的轉變為算力資源的可用性。
Sam Altman說過,限制AI發展的一定是能源。未來的核心競爭力不再是誰家芯片更強,而是誰能夠持續供電、持續降溫。
從星際之門講起
就在前段時間,OpenAI、甲骨文、軟銀共同投資了一個超級智算中心項目,”星際之門”。該項目總投資5000億美元,預計部署超過10萬片GB200、GB300的GPU,采用全液冷架構、閉環式冷卻系統,一次注水無需更換。
該項目建成之后,其總耗電量將達到15GW,即1500兆瓦,可以同時為370萬戶家庭供電,相當于國內一個三四線城市用電量。
基本上來說,英偉達GB200、GB300的出現,讓風冷降溫的體系推出了高密度的訓練場景,這也正是星際之門項目采用全新液冷架構DTC(Direct-to-chip,直連液冷)的原因。
他的技術主要是在液冷的直板上,造成了零蒸發、封閉式液路循環系統,沒有水蒸發、沒有污染,減少補液與泄露的風險;也具備高流量主干管路、以及每個GPU上面都配備了能夠監控溫度、流量和泄露的傳感器,并且冷卻節點和GPU完全支持熱插拔,無需斷電。
如果把星際之門液冷系統與傳統的液冷服務做一個對比的話,它基本上重新定義了液冷的標準。
星際之門的液冷系統可以理解為專門為 AI智算中心量身打造的液冷架構體系,以模塊化、熱插拔、高智能為核心,解決了傳統液冷方案在高密度、高維護效率、高兼容性上的瓶頸。
而常規的液冷方式主要是在應對日益增長的大模型熱負載和智能化運維要求時,逐漸顯露局限性。
維保方式的演變
隨著液冷方案的演變,以及GPU服務器變得越來越昂貴,一個問題隨之而來:維保是否能夠滿足智算中心的需求?
事實上,數據中心的維保在過去的數年中已經發生了轉變。在觀念上,從以前擔心是否故障會發生,慢慢轉變為了如何高效的處理。
維云認為,維保的演變不是一次革命,而是一個漸進式的發展歷程, 大致可以把維保的歷程分為五個階段,即被動響應、預測性維護、自治系統到業務耦合和生態賦能,如下圖所示。
在被動響應階段,哪里壞了修哪里,哪里壞了得到通知再去,這是維保的最初階段。
現在已經到了預測性維護和自治系統的階段。在這兩個階段,企業通過算法就可以提前知道、預判故障在哪里,并且利用自運維腳本進行故障的自我治愈。
而業務耦合和生態賦能屬于未來的階段,星際之門基本上已經可以算是到了第五個階段,全生命周期所有服務商都在合作共同優化運維流程。
因此,維云認為,未來的運維方式一定不是單兵作戰,一定是智能運維加上高效的硬件運維,包括三個核心能力,即:
機器學習與數據分析算法:采用深度學習算法對海量運維數據進行特征提取與模式識別,數據分析算法對運維數據進行多維度分析,挖掘潛在問題;
自動化運維工具與腳本:開發自動化運維工具,實現硬件巡檢、軟件安裝升級、故障修復等操作自動化,編寫高效運維腳本,快速執行常見運維任務;
可視化技術與交互設計:運維數據可視化平臺,幫助運維人員快速決策;交互設計注重用戶體驗,提升運維操作便捷性。
也正因為如此,硬件運維也必須要跟著進步,從被動搶修到主動容錯;從整卡替換到器件級修復;從標準機房到液冷+高密度部署場景;從獨立作業到現在的與AI運維平臺聯動。
維云認為,不僅要懂GPU,也要懂液冷與高密度部署的運維邏輯,才能夠更好地為客戶服務。
高密度下的運維流程是什么樣的?
那么,在高密度場景下的運維流程,應該是什么樣子的?如何判斷一支團隊是否能夠勝任?
最重要的當然是流程,一個合格的團隊一定需要有一套標準的路程,如下圖所示。
它并不是只有簡單的六個步驟,事實上每一個步驟,從AI的平臺故障預警到服務商的介入診斷,到拆卸冷卻液連接板、故障GPU在線熱拔插,到現場的維修返廠,到最后的回饋,下面的細節有幾十項甚至幾百項。
維云認為液冷的運維過程中有三大挑戰,包括液冷的泄露風險、系統復雜性高、維護成本;因此制定了三個對應的策略,包括定期檢測、模塊化設計和培訓與標準化。
企業可以在不同的維度進行比較,然后選擇合適的運維服務商。
建設運維生態
在處理了眾多運維場景之后,維云認為,在運維過程中,處理的不是某一件事,而是整個生態的服務周期。
我們需要從服務器的部署、調試以及運行中的液冷管理、故障預警,以及最后服務器的回收、延保+維修等整個流程,來構筑一個完整的運維生態。
在服務器交付環節,維云圍繞GPU服務器的交付、改配、搬遷提供相關的方案,其每個步驟所需要的核心需求并不一樣,維云會針對每個需求提供單獨的服務;
在服務器的運維環節,維云為提供維保服務、延保服務和備件服務。在這個環節,企業更關注的是運維時效,維云可以提供7×24×4甚至是分鐘級別的故障解決。
在服務器的維修環節,維云能夠提供器件級的維修能力,甚至是芯片級的維修。維云能夠根據原廠的維修流程步驟制定現在的標準,基本上可以理解為等同于英偉達的原廠標準,確保各節點均輸出工單可溯源,維修流程清晰明確、最大化保障客戶資產安全和服務質量。
AI生態在不斷發展,維云希望能夠以自身的專業能力幫助企業解決如下三大問題:
利用維云不斷迭代的運維技術給企業解決高故障;
借助維云可靠的服務商能力給企業解決過保或者無保狀態;
通過維云安全穩定的供應鏈給大家解決合規的備件問題。
在GPU服務器價值逐漸增高的情況下,維保服務很像是一個保險服務,企業支付較低的維保費用,將個體無法承擔的一部分風險轉移到保險公司。那么在GPU服務器維保領域,選擇一家優秀的服務商就變得至關重要。
只有這樣,企業才能夠更好地專注于自身的業務,借助AI能力,獲得更快速而穩定的發展。
end
2026中國智算中心全棧技術大會暨展覽會暨第12屆中國(上海)國際數據中心產業展覽會、第7屆中國數據中心綠色能源大會,即將于2026年6月在上海新國際博覽中心舉辦。
參展、參會或了解更多詳情,請聯系:
金笑雨先生
電話:18610941758
微信:Jin_Xiaoyuer
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.