智算中心作為新興的算力基礎設施,正逐漸成為推動數字經濟發展的重要力量,亦成為新建數據中心的“標配”。根據《中國綜合算力指數(2024 年)》數據,截至 2024 年 6 月,我國在用算力中心超過 830 萬標準機架,算力總規模 246EFLOPS(FP32)。智能算力規模 76EFLOPS,智算同比增速超過 65%。
對于很多IDC企業來說,智算已經成為必選項。但智算中心高昂的建設成本成為了制約傳統IDC向智算轉型的關鍵因素。那么,從TCO(總體擁有成本)的角度,IDC企業該如何跨越成本門檻,擁抱未來呢?
從“硬”到“軟”的成本考驗
智算中心的高成本眾所周知,其中最大的一部分就是服務器成本。相比于傳統數據中心,這些配備了GPU或者智算芯片等異構芯片的設備價格往往高出數倍,甚至數十倍。一臺配置了8塊GPU的智算服務器,其價格可能高達200萬甚至300萬元人民幣以上,這還不包括與之配套的存儲、網絡等基礎設施。
由于智算單元之間高速數據傳輸及低延遲通信的互聯需求,智算中心需要部署先進的網絡架構,如InfiniBand或RoCE等,這也是一筆不小的開銷。此外,隨著模型參數規模的增長,組網規模擴大帶來的管理挑戰同樣需要額外的投資來解決。
智算中心的能耗和運維成本也是不容忽視的。由于使用了大量的高性能計算單元,智算中心的能耗遠高于通用數據中心。一些智算中心的單機柜功率密度甚至達到了100kW以上,這意味著它們需要更強大的供電能力和成本更高的制冷系統——比如液冷來支持運行。
除了硬件投資外,維護大規模并行計算環境下的穩定性與效率需要專業的技術支持團隊,并且隨著軟件棧變得越來越復雜,自動化運維工具的重要性日益凸顯。如果提供更深層次的智算服務還需要部署商業軟件等……由此帶來的人才、軟件成本都不容忽視。
價值創造:長期視角下的TCO考量
面對高昂的成本,不少從業者和用戶對智算中心的投資回報深深抱有疑慮。然而,從長遠來看,智算中心的業務前景廣闊,其所帶來的價值創造潛力是巨大的。因此,從TCO角度出發,如何優化運維能力,進行技術創新,從而降低TCO,獲得更高的生產力和市場競爭力,是算力企業更應該考慮的問題。
運維優化是降低智算中心TCO的最直接手段之一。一方面通過智能監控和預警系統來及時發現和解決潛在問題,避免故障發生導致的損失。一方面可以通過智能運維微調整體運行環境,降低整體能耗,在長期的運行中實現成本的節約。
技術創新則是降低智算中心TCO的根本途徑。通過研發更為高效、節能的硬件設備和算法,企業可以在保證性能的同時,有效降低硬件和能耗成本。比如通過優化硬件設計、提高集成度等方式來提高硬件的性能和能效比;嘗試更高效的算法來加速AI應用,降低算力成本等。
從發展角度看,智算中心的成本問題最終還要依賴于生態建設的完善。特別是在國產智算生態中,可以嘗試使用國產芯片等替代方案來降低成本。同時,積極推動制定統一的技術標準和規范,降低不同品牌產品的集成度,提升穩定性,進一步降低集成成本。
隨著技術的不斷進步和應用場景的不斷拓展,智算中心有望在推動數字經濟發展和產業升級方面發揮更為重要的作用。如何更好的發展智算生態,也將成為算力產業發展繞不開的話題。
中國IDC產業年度大典組委會將于2024年12月19日-20日在北京隆重舉辦第十九屆中國IDC產業年度大典(IDCC2024)。大會聚焦“智算崛起”“賦能協同”“環球布局”“誰主沉浮”“算力新十年”幾大議題模塊,旨在探討算力產業的未來發展方向、技術創新、商業模式變革以及可持續發展路徑。攜手算力產業精英,共同推動中國乃至全球數字經濟的繁榮與發展。目前報名通道已開啟,掃描以下二維碼即可報名。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.