從算力內卷到存力突圍,一場有關企業AI基建的價值重估。
新眸原創·作者 | 桑明強
當全球科技巨頭為AI大模型瘋狂加碼GPU算力時,一家頭部券商公司卻公開訴苦:費力搭建的GPU集群,利用率卻始終卡在30%,算力空轉導致每月僅電費就是一筆不小的開銷,核心瓶頸竟然是一塊“看不見的短板”:存儲帶寬。
這并非孤例——某車企自動駕駛團隊在迭代模型時發現,因數據讀寫延遲過高,單次訓練周期被迫延長40%,直接拖慢產品落地進度。這些故事背后,揭示了大模型時代最隱秘的真相,存儲正成為大模型落地的最大暗礁。
大模型訓練場景下,數據集一般以文檔、圖片、音視頻等非結構化數據為主,這些文件通常很小,在幾十字節到幾百kb級別,但數量龐大,大約幾億到幾十億量級,這就要求存儲系統具有強大的元數據管理能力,用來支撐海量小文件的高吞吐。
據愛分析測算,在同等GPU算力規模下,存儲性能差異可導致3倍模型訓練周期波動。以GPT-4為例,它訓練需處理超100PB數據,存儲帶寬要求600GB/s,相當于每分鐘填滿45塊10TB硬盤,而傳統4節點存儲集群僅能提供24GB/s帶寬,差距達25倍。
在這種背景下,產業界陷入兩難困局:既要支持千億級參數AI大模型、TB級帶寬的“暴力吞吐”,又要扛住30年數據留存、11個9可靠性的“馬拉松考驗”,還要滿足國產化和市場的真實需求。
“這中間的挑戰其實非常大。”京東云相關負責人告訴《新眸》,一方面,存儲廠商需要跟主流芯片廠商以及國產操作系統相互兼容認證;另一方面,還要在全國產化環境里做到高性能、高穩定性和低成本,這背后意味著大量的對接、優化和自主研發工作。
這些問題也是眼下很多CTO、CIO焦慮的地方。盡管DeepSeek等模型能力讓人振奮,也讓外界看到了大模型落地千行百業的可能性,但擺在他們面前的,除了買GPU、堆算力外,還要思考如何從存儲端切入,為企業算清楚大模型落地和數字化的“經濟賬”。
01
GPU空轉背后:一場被忽視的存儲革命
存儲成本就像是房間里的大象,所有人都看見,但沒人敢動。據業內人士透露,有的企業光內部存儲系統就采購了5套,每一套都需要單獨維護,由于這些數據分散在不同系統,管理難度陡增的同時,也為后續數據價值挖掘平添了障礙。
一項調查顯示,大模型訓練中存儲成本占比高達10%-20%,但多數企業仍將其視為“必要損耗”。拿一臺L3級別的自動駕駛測試車來講,平均每天產生60TB的數據,完整測試產生的數百PB數據需要存儲30年以上。
存儲成本居高不下,是大模型時代的一大痛點,癥結在于缺少對數據的有效分層。傳統存儲方案下,為了保證企業生產活躍度和數據安全,通常需要做到3個副本,這也是導致存儲空間利用率低的直接原因,類似問題在互聯網、金融、醫療等行業普遍存在——冷數據占用大量資源,卻鮮少被訪問。
更別談一些特定領域,它們對于存量數據的存儲要求更為苛刻。比如政府電子檔案要求保存周期為5年甚至更長,公檢法司數據要求保存周期至少30年以上。
問題的復雜性在于技術門檻。要知道,大模型訓練的本質是海量數據的處理與流動,過程中需要實時處理數百PB級數據,存儲系統需同時滿足千萬級IOPS、TB級帶寬、微秒級延遲。相比之下,傳統解決方案往往顧此失彼:高端存儲陣列性能達標但成本高昂;開源方案雖成本低,卻面臨穩定性問題。
“一定程度上,云海AI存儲的出現填補了市場空白。”據京東云相關負責人透露,這款歷經京東618、雙11等復雜場景打磨的產品,以全自研統一分布式存儲引擎為核心,實現4K隨機寫性能突破千萬級IOPS,平均延遲在100微秒級,并通過1.1x副本技術節省整體基礎設施成本超30%。
“近幾年市場對國產存儲的關注度明顯提高。”尤其在大模型浪潮下,存儲性能已從后臺支持系統,躍升為AI生產力核心要素。一種主流觀點認為,當參數規模突破千億量級時,對存儲的要求會更高,屆時唯有具備彈性擴展能力的分布式存儲架構,才能支撐未來3-5年的AI進化需求。
在與多個客戶深入交流后,京東云方面發現,除了國產化層面的要求,對海外存儲廠商的祛魅逐漸成為行業共識,國外的月亮不一定更圓,這也是云海AI存儲為什么能在銀行、證券、汽車、零售等領域廣泛落地——它既能做到不輸海外存儲廠商的高性能、高可用性,還在于它是京東100%自研產品,核心技術完全自主可控。
02
自主可控:國產存儲的“性能逆襲”密碼
“每一個架構好在哪里、壞在哪里,我們有充足的底氣來判斷。”京東云相關負責人告訴《新眸》,從2012年開始計算,云海AI存儲在京東場景已經實踐了超過13年。
作為下一代關鍵技術,存儲是AI基礎設施重要一環,也是國產化的重點,尤其對于金融、政務領域來講。在這個背景下,核心技術是否自主可控將成為關鍵門檻,相比之下,國外存儲廠商的商業化產品雖然在性能上整體領先,但無法作為優先選擇;至于國內廠商,則需要驗證其技術自主可控能力,以及產品與周邊國產化生態軟硬件系統的兼容性。
和傳統分布式不同,云海分布式存儲主要聚焦于AI訓練和推理場景,而非僅限于數據處理。由于它采用完全自研的架構,而非基于開源平臺,“每一行代碼都是自己寫的”使得云海在面對大規模數據存儲和高性能需求時更具競爭力。事后來看,這是一條艱難但正確的選擇。
事實上,除了京東云云海外,這些年國內發力AI存儲并不在少數,但最終結果卻反響平平,據業內人士透露,有的廠商費了大力氣挖人、投入了大量資源,卻至今未能推出成熟的產品。
這同時也是互聯網廠商自研存儲的難點所在,不僅要解決監控組件、數據庫組件、工程化要求等第三方依賴問題,針對不同客戶需求進行模塊化單獨輸出,還要考慮到業界主流存儲架構突變帶來的風險性。
背后的考量與權衡不言而喻。回憶起打磨云海AI存儲的那段經歷,京東云相關負責人坦言中間也經歷過很多內部的爭論,比如數據保護的技術路線選擇上,當時內部就選擇覆蓋寫還是追加寫時,討論過很多次。
覆蓋寫作為業界主流的技術路徑,相對來說開發難度、風險都比較小,但壞處是,在存儲故障處理能力、包括故障后響應時延方面非常弱,而且性能也沒法做到極致。綜合考量下,云海AI存儲最終選擇了更有難度的追加寫技術路徑,為了讓它有更高的穩定性,團隊前后就存儲架構優化方面又花了將近一年時間。
03
存力即戰力
京東云云海如何改寫存儲經濟賬
當全球AI競賽進入耐力賽階段,存儲價值正在從“后勤保障”升級為“核心戰力”。
拿汽車場景舉例,在自動駕駛等模型訓練、研發過程中,存儲和GPU的關系往往是緊密耦合的,一旦GPU集群出現閑置狀態,就會導致極大的資源浪費。關于這點,業界有一個經典測算,如果GPU集群出現5%左右的閑置時間,其成本就相當于重建一套分布式存儲集群。
云海的實踐也驗證了這一點——某自動駕駛公司通過存力優化,滿足了該企業上百個GPU計算節點在模型訓練過程中訪問存儲數據,并應對計算節點的高并發訪問的需求,大大縮短了訓練周期;某國有大行基于云海構建存力底座,采用統一分布式存儲的方式,既滿足大模型訓練的海量數據存儲需求,還有效降低了成本。
類似的故事也發生在某知名券商。為了支撐業務發展,該券商需要進行系統架構的全面云原生化升級,但問題在于,傳統存儲架構不夠靈活,很難適應“小微化、高頻化”的業務新模式,更別談支撐業務系統快速上線、快速變更。
“這恰恰是云海的獨特優勢所在。”據京東云方面透露,基于云海分布式存儲搭建的統一存儲平臺,該券商構建了超大規模數據湖,統一管理結構化與非結構化數據,在實現數據高效存儲與流動的同時,存儲平臺還兼容多存儲接口類型,真正做到與用戶業務系統無縫鏈接。
荔枝FM內部曾經算過一筆賬:4.5億用戶音頻數據若沿用傳統3副本機制,年存儲成本將是一筆巨額開銷,而基于京東云自研云海存儲系統,綜合存儲成本直降30%,背后秘密在于京東云獨創的冷熱數據自動分層機制——熱數據保留3副本保障毫秒級響應,冷數據則采用EC低冗余技術(1.1x副本率),磁盤利用率直接提升至90%。
值得一提的是,云海這套組合拳還能同步構建跨機架多節點容災體系,實現每次讀寫自動多副本備份,支撐荔枝FM4.5億用戶的高品質音頻服務零中斷。在業內人士看來,大模型競賽下半場,存力正從幕后走向臺前,京東云云海通過性能、成本、自主可控的三重突破,不僅解決了企業的現實痛點,更重新定義了AI基礎設施的價值鏈——存儲系統的ROI=性能增益+成本節省+故障止損。
“國產存儲崛起的關鍵不單單是性能、可靠性的比拼,更需要你站在未來思考。”按照京東云相關負責人的判斷,未來通用大模型解決用戶所有需求的可能性較低,取而代之的是,將呈現多種應用化大模型根據用戶場景并行使用的情況,隨著DeepSeek等LLM的應用發展,后續推理的需求將持續走高,預計將遠高于訓練需求。
事實也的確如此,根據IDC發布的一份報告顯示,全球數據將從2018年的33ZB增至2025年的175ZB。而中國的數據總量也在全球首屈一指,調查數據顯示,中國數據占全球數據比重正在從2018年的23.4%,發展到2025年的27.8%。
從這個角度來看,有關"存儲經濟學"的價值重構,已經成為企業AI戰略的勝負手。
本文系新眸原創,申請轉載授權、商務合作請聯系微信: ycj841642330,添加好友請備注公司和職位。
更多內容,點擊下方關注
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.