網易首頁 > 網易號 > 正文申請入駐

支撐不起大模型，就別談存儲：AI時代的新數據底座怎么建？

2025-04-30 12:37:58　來源: 數據猿DataYuan

內蒙古舉報

分享至

進入2025年，AI大模型正以前所未有的速度涌入現實世界。參數規模從千億邁向萬億，數據類型從文本拓展至圖像、音頻、視頻乃至多模態融合；而訓練、微調、部署場景則從科技公司拓展至金融、醫療、制造等傳統行業。大模型不再是科研范式，而已成為工業級能力的核心競爭力。

但就在“模型越來越大、場景越來越多”的同時，支撐它成長的數據存儲系統，正在經歷極限考驗。

為此，數據猿采訪了西部數據、極道科技、華瑞指數云、京東云的相關專家，

試圖搞清楚下面幾個問題：

大模型商用化，到底對數據存儲提出了哪些新要求？

當前主流架構，為何越來越“力不從心”？

下一代“AI原生存儲體系”，應該具備哪些關鍵能力？

大模型規模化商用

對數據存儲提出了哪些“新要求”？

數據存儲作為一種數智化的基礎設施，是為上層數字化、智能化服務的。當需求變了，數據存儲也需要隨需應變。那么，我們來看第一個問題，大模型的商用，到底對數據存儲提出了哪些新需求。通過我們大量采訪和探討，發現有下面幾個方面值得關注：

1. 極致的吞吐性能與并發能力要求，從“跑得快”到“拉得動”

AI大模型的訓練和推理，已經成為數據系統吞吐和并發能力的終極挑戰。

在訓練階段，多個GPU節點以每秒幾十GB的速度從存儲系統讀取數據、進行計算、再寫入checkpoint。這一過程中，任何一處IO延遲，都會造成GPU算力的浪費。西部數據團隊在訓練大規模圖像模型時發現，GPU利用率低并非算力不足，而是IO系統響應不及時，數據加載延遲拖慢整體訓練節奏。

極道科技也提到，模型參數量級增長（如從億級到萬億級）導致訓練數據量指數上升。這種情況下，數據存儲需支持彈性擴展。同時，存儲系統和計算系統需要緊密協同，以避免數據傳輸成為性能瓶頸。

而在推理階段，場景更加復雜。京東云指出，在為千億級大模型提供推理服務時，讀寫需求常在“數十GB/s，甚至上百GB/s”量級，存儲系統一旦響應不及時，不僅影響用戶體驗，還可能直接觸發服務中斷。

2. 多模態、非結構化數據的組織與索引復雜度飆升

大模型的輸入已不再局限于文本，而是擴展到圖像、音頻、視頻、代碼等多模態、多粒度的非結構化數據。這類數據不僅體量龐大，而且格式復雜、訪問模式各異，傳統的數據湖方案難以勝任。

華瑞指數云在其AI數據平臺WADP的實踐中強調，AI存儲并不等同于并行文件系統，AI存儲與為HPC而誕生的并行文件系統只是性能需求相似，其他的需求相差非常之大。為AI訓練提供數據支撐，不僅需要支持對象、塊、文件、KV等多種協議，還要能同時管理結構化與非結構化數據，實現統一的“語義檢索+數據流轉”能力，否則將導致AI Pipeline中的數據孤島、重復拷貝、大量運維成本。

此外，元數據管理的挑戰也在加劇：如何記錄每一個數據文件的版本、來源、清洗狀態？如何實現“可復現”的數據快照？這些都是傳統存儲系統未曾考慮的問題。

3. 數據版本控制與可追溯性要求

隨著模型的迭代速度加快，數據版本控制的需求變得剛性。每一次微調、每一次A/B測試，甚至每一輪prompt庫更新，都需要基于明確可回溯的數據版本來訓練，以確保實驗的可復現性與結果的可驗證性。

4. 冷熱數據自動分層與智能調度需求更強

AI訓練過程中，只有少數數據是真正的“熱數據”——比如embedding緩存、當前輪的訓練樣本、生成日志等，其余大量數據屬于低頻訪問甚至歸檔數據。如果不進行分層處理，就會造成高性能存儲資源被低價值數據占據。

5. 存儲系統的安全性、合規性、可控性要求更高

隨著AI落地金融、醫療、政務等領域，數據安全和合規要求變得更加嚴格。數據訪問權限、加密存儲、審計日志、跨地域合規存儲等需求，逐步從“加分項”變為“必選項”。

尤其在國產化背景下，京東云強調：未來的AI基礎設施必須具備“國產化適配能力”與“自主可控存儲能力”，否則可能在合規方面面臨問題。

此外，華瑞指數云也強調，企業級AI應用需要將生產數據與AI數據融合統一管理，因此，數據的合規性不僅限于存儲階段，而是貫穿于整個數據流轉與使用周期。

當前行業的真實困境：

系統撐不住，運維管不了

在AI大模型的落地過程中，越來越多企業意識到一個現實問題：真正拖慢模型訓練和推理效率的，除了算力不夠，很多情況還源于數據存儲不給力。

1. GPU在等IO，算力在“空轉”

在京東云分享的案例中，某頭部券商在訓練千億參數大模型時，GPU利用率長期低于30%。經過排查后發現，造成資源浪費的關鍵原因是數據帶寬不足，特別是海量小文件并發讀取帶來的元數據瓶頸，嚴重制約了訓練效率。

此外，京東云還提到，某車企在自動駕駛模型迭代中也面臨類似挑戰，因訓練過程中數據加載延遲過高，導致單次訓練周期延長40%，產品上線計劃被迫推遲。

西部數據也在材料中指出，AI模型訓練中的GPU算力，頻繁因存儲系統響應不及時而“空轉”，尤其是在處理圖像類任務時，高頻的數據調取造成存儲系統擁堵，GPU陷入等待狀態。

2. 對象存儲“水土不服”，在高并發場景下暴露短板

多個企業反饋嘗試將對象存儲應用于AI訓練場景時，發現其一致性機制和高并發讀寫能力難以勝任訓練任務的數據密集訪問需求。

西部數據團隊表示，對象存儲雖在歸檔和分析場景表現良好，但在大模型訓練過程中，由于缺乏高效的元數據訪問路徑，系統在面對多節點同時請求時，性能出現明顯瓶頸。

華瑞指數云指出，AI全流程的數據鏈條如果由多種存儲方案拼接而成，會導致數據在不同的存儲系統間頻繁搬運、格式不統一，數據不實時不一致，嚴重增加數據流通的摩擦和維護成本。因此他們更傾向于構建統一的AI智能數據平臺，支持全流程數據讀寫和跨協議訪問。

3. 熱數據冷處理，手動策略“調不贏”

在應對冷/熱數據分層方面，西部數據采用了“基于數據熱度和時間窗口”的策略，將熱數據放入高性能存儲（如SSD或內存），冷數據則遷移到HDD。但他們也指出，這種策略高度依賴對業務場景的精確理解與手動調配，一旦判斷失誤，可能導致熱點數據被冷處理，影響訓練效率。

4. Kubernetes 環境存儲協同難，調度復雜易出錯

在AI任務Kubernetes化后，企業普遍反饋K8s原生對存儲的支持能力不足：PVC資源無法靈活擴縮容、數據卷掛載復雜，存儲與計算調度耦合在一起，導致任務之間容易出現資源沖突或調度混亂。華瑞指數云在其AI數據平臺產品WADP中，專門優化了對于Kubernetes平臺的原生支持，支持通過CSI接口給任意POD自動掛載高性能塊存儲卷或者共享文件目錄，其自動掛載的塊存儲卷可以達到超越本地SSD盤的IOPS和帶寬，并且具有完備的多節點并行訪問和極速的高可用切換能力，可以實現計算與存儲的完全解耦和獨立調度，滿足AI Pipeline各環節多樣化的數據存儲與訪問需求。

5. 存儲系統“無感”，數據全生命周期管理盲區顯現

華瑞指數云在訪談中明確指出，目前大多數存儲系統無法實時感知AI任務行為與數據狀態變化，導致數據分層、權限控制、訪問審計等工作全靠人工運維，風險大、成本高。他們強調，AI時代的存儲系統必須具備“對數據流動路徑的全局感知能力”，包括數據的產生、流轉、使用、歸檔、回收全過程，以支持真正意義上的“智能存儲治理”。

隨著AI應用走向多模態、高并發、強實時的復雜化方向，越來越多企業達成共識：“我們不是沒有存儲，而是沒有為AI而生的存儲。”

底層系統的不匹配，已經成為制約AI能力釋放的關鍵瓶頸。下一階段的重點，除了“增加多少GPU”，還要構建真正面向AI場景優化的新型數據存儲底座。

AI原生存儲體系的雛形是什么樣的

在過去的幾年里，企業對“數據存儲”的期望主要停留在容量、穩定性和成本控制。但在AI大模型的推動下，存儲不再是冷冰冰的倉庫，而開始成為整個AI基礎設施中的“神經中樞”。

我們在對多家技術領先企業的訪談中注意到，一個全新的方向正逐步浮現：為AI而生的“原生存儲架構”，正在技術和產品層面同步展開。那AI原生存儲有哪些值得關注的方向呢？

1. 從“被動響應”到“智能調度”，AI平臺自研調度引擎成為主流趨勢

例如，極道科技構建的統一計算系統Achelous，是當前存算協同探索的重要案例之一。它能夠感知訓練任務的IO特征，并將計算調度信息反向傳遞給存儲系統，實現“按需加載、智能預取、動態分層”的數據調度機制。

此外，極道科技的數據感知引擎可以實時追蹤元數據變化，自動識別數據特征并進行動態數據集重組，使得數據查詢時間降至秒級，提升了數據訪問的速度和準確性，特別是在訓練大規模圖像模型或多模態任務時，效果尤其明顯。

這類做法，突破了傳統存儲系統“只接受請求，不了解場景”的設計局限，讓存儲系統從執行者變為主動參與者，與AI調度平臺協同形成“閉環式資源調度”。

2. 數據版本控制系統進入訓練鏈路，LakeFS、Delta Lake 逐漸興起

為了解決“數據不可復現”、“實驗難調試”的問題，不少企業開始在訓練數據環節引入類似“Git for data”的思維。

極道科技提到，他們嘗試將數據版本控制系統與訓練調度系統打通，為每一次訓練創建快照式數據集副本，同時保留原始數據追蹤能力，以便進行回滾、對比與A/B實驗。

這與LakeFS、Delta Lake等開源系統所強調的“數據快照+版本控制+可審計”體系理念高度一致，也印證了AI模型訓練將進入“版本驅動”新階段。

3. AI場景下的“新三層”架構：分布式存儲+緩存+元數據系統

傳統存儲架構，比如NAS存儲，在面對AI訓練的讀寫壓力時已難以支撐。多個企業開始轉向更適應并發讀寫和多模態數據訪問的分布式架構：

底層采用彈性擴展的分布式文件存儲或對象存儲，提供大容量、高可用；

中間層引入高速緩存機制（如GPU本地緩存、RDMA直通等）緩解延遲；

頂層搭建支持語義索引與任務感知的分布式元數據管理系統，提升非結構化數據的組織和檢索效率。

京東云“云海AI存儲”是一個典型例子。其架構融合自研引擎與RDMA網絡，實現4K隨機寫IOPS千萬級、延遲低于100微秒，支持K8s并發環境下的AI推理和訓練，同時還能做到1.1x副本的低冗余存儲，有效平衡性能與成本。

4. “數據即服務”理念升溫：從存儲系統到數據平臺化治理

在AI系統中，存儲早已不只是“放數據”的地方，而是要提供“按需供給、全程可控”的服務能力。華瑞指數云強調，他們通過自研平臺WADP，實現了存儲層對AI數據全生命周期的統一管理，包括生產庫、原始數據、訓練數據、模型中間結果、KV Cache持久化、RAG知識庫等。

這種“數據即服務”的理念，不再是簡單的數據訪問，而是貫穿采集、處理、標注、訓練、推理、歸檔等所有流程，打造面向AI的“數據供應鏈”系統。

5. 云廠商全面推出AI專用存儲產品

隨著AI成為公有云的新戰場，各大云廠商也在加速推出面向AI場景的專用產品：

京東云“云海AI存儲”通過高度國產化+高性能設計，已支持超百家金融、零售、汽車客戶落地大模型項目；

多家企業提及，未來對象存儲將深度融合AI任務引擎，成為Lakehouse架構核心底座，不僅支持非結構化數據，還要接入向量檢索、語義標引等功能；

隨著訓練、推理數據規模持續增長，KV Cache持久化、Embedding全局共享等新型AI存儲形態也在探索落地。

下一代的AI原生存儲系統，必須是感知型、協同型、平臺型的：它不僅要處理數據，更要理解任務、預測行為、支撐協同——最終成為AI系統的一部分，而非其外部依賴。

在AI狂飆突進的時代，所有人都在談算力、談大模型、談智能涌現。但真正決定一個企業能不能把AI落到業務上，除了關注買了多少GPU，還是能不能“把數據喂進去、喂得起、喂得好”。

這一切的底座，是數據存儲。但今天的行業普遍低估了它的價值。

在我們與多家頭部企業的交流中，越來越多架構負責人正在重構存儲認知：存儲系統不是服務算力的后臺，而是決定AI訓練能不能跑、推理能不能擴、數據能不能控的關鍵組件。

未來，判斷一個企業AI能力的強弱，不再只看模型有多大、參數有多少，還要看：你是不是有一套能實時理解AI任務、自動調度數據資源、全面控制數據生命周期的原生存儲系統；你是不是能做到數據不動模型動，推理集群即取即用；你是不是能用存儲的體系化能力，替代掉工程師那堆手工遷移、腳本補丁、灰色調度的“臨時方案”。

AI的火箭早已升空，但大多數企業還沒把“地基”打好。這是一個行業級的錯配：我們在用為“表單系統”設計的存儲，喂“世界級認知系統”的胃口。

AI不是等存儲準備好了才走，它只會把沒跟上的架構，統統甩在后面。

誰先把數據存儲從“被動配角”變為“主動核心”，誰就真正掌握了AI時代的落地主動權。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.