99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

支撐不起大模型,就別談存儲:AI時代的新數據底座怎么建?

0
分享至



進入2025年,AI大模型正以前所未有的速度涌入現實世界。參數規模從千億邁向萬億,數據類型從文本拓展至圖像、音頻、視頻乃至多模態融合;而訓練、微調、部署場景則從科技公司拓展至金融、醫療、制造等傳統行業。大模型不再是科研范式,而已成為工業級能力的核心競爭力。

但就在“模型越來越大、場景越來越多”的同時,支撐它成長的數據存儲系統,正在經歷極限考驗。

為此,數據猿采訪了西部數據、極道科技、華瑞指數云、京東云的相關專家,

試圖搞清楚下面幾個問題:

大模型商用化,到底對數據存儲提出了哪些新要求?

當前主流架構,為何越來越“力不從心”?

下一代“AI原生存儲體系”,應該具備哪些關鍵能力?

大模型規模化商用
對數據存儲提出了哪些“新要求”?

數據存儲作為一種數智化的基礎設施,是為上層數字化、智能化服務的。當需求變了,數據存儲也需要隨需應變。那么,我們來看第一個問題,大模型的商用,到底對數據存儲提出了哪些新需求。通過我們大量采訪和探討,發現有下面幾個方面值得關注:

1. 極致的吞吐性能與并發能力要求,從“跑得快”到“拉得動”

AI大模型的訓練和推理,已經成為數據系統吞吐和并發能力的終極挑戰。

在訓練階段,多個GPU節點以每秒幾十GB的速度從存儲系統讀取數據、進行計算、再寫入checkpoint。這一過程中,任何一處IO延遲,都會造成GPU算力的浪費。西部數據團隊在訓練大規模圖像模型時發現,GPU利用率低并非算力不足,而是IO系統響應不及時,數據加載延遲拖慢整體訓練節奏。

極道科技也提到,模型參數量級增長(如從億級到萬億級)導致訓練數據量指數上升。這種情況下,數據存儲需支持彈性擴展。同時,存儲系統和計算系統需要緊密協同,以避免數據傳輸成為性能瓶頸。

而在推理階段,場景更加復雜。京東云指出,在為千億級大模型提供推理服務時,讀寫需求常在“數十GB/s,甚至上百GB/s”量級,存儲系統一旦響應不及時,不僅影響用戶體驗,還可能直接觸發服務中斷。

2. 多模態、非結構化數據的組織與索引復雜度飆升

大模型的輸入已不再局限于文本,而是擴展到圖像、音頻、視頻、代碼等多模態、多粒度的非結構化數據。這類數據不僅體量龐大,而且格式復雜、訪問模式各異,傳統的數據湖方案難以勝任。

華瑞指數云在其AI數據平臺WADP的實踐中強調,AI存儲并不等同于并行文件系統,AI存儲與為HPC而誕生的并行文件系統只是性能需求相似,其他的需求相差非常之大。為AI訓練提供數據支撐,不僅需要支持對象、塊、文件、KV等多種協議,還要能同時管理結構化與非結構化數據,實現統一的“語義檢索+數據流轉”能力,否則將導致AI Pipeline中的數據孤島、重復拷貝、大量運維成本。

此外,元數據管理的挑戰也在加劇:如何記錄每一個數據文件的版本、來源、清洗狀態?如何實現“可復現”的數據快照?這些都是傳統存儲系統未曾考慮的問題。

3. 數據版本控制與可追溯性要求

隨著模型的迭代速度加快,數據版本控制的需求變得剛性。每一次微調、每一次A/B測試,甚至每一輪prompt庫更新,都需要基于明確可回溯的數據版本來訓練,以確保實驗的可復現性與結果的可驗證性。

4. 冷熱數據自動分層與智能調度需求更強

AI訓練過程中,只有少數數據是真正的“熱數據”——比如embedding緩存、當前輪的訓練樣本、生成日志等,其余大量數據屬于低頻訪問甚至歸檔數據。如果不進行分層處理,就會造成高性能存儲資源被低價值數據占據。

5. 存儲系統的安全性、合規性、可控性要求更高

隨著AI落地金融、醫療、政務等領域,數據安全和合規要求變得更加嚴格。數據訪問權限、加密存儲、審計日志、跨地域合規存儲等需求,逐步從“加分項”變為“必選項”。

尤其在國產化背景下,京東云強調:未來的AI基礎設施必須具備“國產化適配能力”與“自主可控存儲能力”,否則可能在合規方面面臨問題。

此外,華瑞指數云也強調,企業級AI應用需要將生產數據與AI數據融合統一管理,因此,數據的合規性不僅限于存儲階段,而是貫穿于整個數據流轉與使用周期。

當前行業的真實困境:
系統撐不住,運維管不了

在AI大模型的落地過程中,越來越多企業意識到一個現實問題:真正拖慢模型訓練和推理效率的,除了算力不夠,很多情況還源于數據存儲不給力。

1. GPU在等IO,算力在“空轉”

在京東云分享的案例中,某頭部券商在訓練千億參數大模型時,GPU利用率長期低于30%。經過排查后發現,造成資源浪費的關鍵原因是數據帶寬不足,特別是海量小文件并發讀取帶來的元數據瓶頸,嚴重制約了訓練效率。

此外,京東云還提到,某車企在自動駕駛模型迭代中也面臨類似挑戰,因訓練過程中數據加載延遲過高,導致單次訓練周期延長40%,產品上線計劃被迫推遲。

西部數據也在材料中指出,AI模型訓練中的GPU算力,頻繁因存儲系統響應不及時而“空轉”,尤其是在處理圖像類任務時,高頻的數據調取造成存儲系統擁堵,GPU陷入等待狀態。

2. 對象存儲“水土不服”,在高并發場景下暴露短板

多個企業反饋嘗試將對象存儲應用于AI訓練場景時,發現其一致性機制和高并發讀寫能力難以勝任訓練任務的數據密集訪問需求。

西部數據團隊表示,對象存儲雖在歸檔和分析場景表現良好,但在大模型訓練過程中,由于缺乏高效的元數據訪問路徑,系統在面對多節點同時請求時,性能出現明顯瓶頸。

華瑞指數云指出,AI全流程的數據鏈條如果由多種存儲方案拼接而成,會導致數據在不同的存儲系統間頻繁搬運、格式不統一,數據不實時不一致,嚴重增加數據流通的摩擦和維護成本。因此他們更傾向于構建統一的AI智能數據平臺,支持全流程數據讀寫和跨協議訪問。

3. 熱數據冷處理,手動策略“調不贏”

在應對冷/熱數據分層方面,西部數據采用了“基于數據熱度和時間窗口”的策略,將熱數據放入高性能存儲(如SSD或內存),冷數據則遷移到HDD。但他們也指出,這種策略高度依賴對業務場景的精確理解與手動調配,一旦判斷失誤,可能導致熱點數據被冷處理,影響訓練效率。

4. Kubernetes 環境存儲協同難,調度復雜易出錯

在AI任務Kubernetes化后,企業普遍反饋K8s原生對存儲的支持能力不足:PVC資源無法靈活擴縮容、數據卷掛載復雜,存儲與計算調度耦合在一起,導致任務之間容易出現資源沖突或調度混亂。華瑞指數云在其AI數據平臺產品WADP中,專門優化了對于Kubernetes平臺的原生支持,支持通過CSI接口給任意POD自動掛載高性能塊存儲卷或者共享文件目錄,其自動掛載的塊存儲卷可以達到超越本地SSD盤的IOPS和帶寬,并且具有完備的多節點并行訪問和極速的高可用切換能力,可以實現計算與存儲的完全解耦和獨立調度,滿足AI Pipeline各環節多樣化的數據存儲與訪問需求。

5. 存儲系統“無感”,數據全生命周期管理盲區顯現

華瑞指數云在訪談中明確指出,目前大多數存儲系統無法實時感知AI任務行為與數據狀態變化,導致數據分層、權限控制、訪問審計等工作全靠人工運維,風險大、成本高。他們強調,AI時代的存儲系統必須具備“對數據流動路徑的全局感知能力”,包括數據的產生、流轉、使用、歸檔、回收全過程,以支持真正意義上的“智能存儲治理”。

隨著AI應用走向多模態、高并發、強實時的復雜化方向,越來越多企業達成共識:“我們不是沒有存儲,而是沒有為AI而生的存儲。”

底層系統的不匹配,已經成為制約AI能力釋放的關鍵瓶頸。下一階段的重點,除了“增加多少GPU”,還要構建真正面向AI場景優化的新型數據存儲底座。

AI原生存儲體系的雛形是什么樣的

在過去的幾年里,企業對“數據存儲”的期望主要停留在容量、穩定性和成本控制。但在AI大模型的推動下,存儲不再是冷冰冰的倉庫,而開始成為整個AI基礎設施中的“神經中樞”。

我們在對多家技術領先企業的訪談中注意到,一個全新的方向正逐步浮現:為AI而生的“原生存儲架構”,正在技術和產品層面同步展開。那AI原生存儲有哪些值得關注的方向呢?

1. 從“被動響應”到“智能調度”,AI平臺自研調度引擎成為主流趨勢

例如,極道科技構建的統一計算系統Achelous,是當前存算協同探索的重要案例之一。它能夠感知訓練任務的IO特征,并將計算調度信息反向傳遞給存儲系統,實現“按需加載、智能預取、動態分層”的數據調度機制。

此外,極道科技的數據感知引擎可以實時追蹤元數據變化,自動識別數據特征并進行動態數據集重組,使得數據查詢時間降至秒級,提升了數據訪問的速度和準確性,特別是在訓練大規模圖像模型或多模態任務時,效果尤其明顯。

這類做法,突破了傳統存儲系統“只接受請求,不了解場景”的設計局限,讓存儲系統從執行者變為主動參與者,與AI調度平臺協同形成“閉環式資源調度”。

2. 數據版本控制系統進入訓練鏈路,LakeFS、Delta Lake 逐漸興起

為了解決“數據不可復現”、“實驗難調試”的問題,不少企業開始在訓練數據環節引入類似“Git for data”的思維。

極道科技提到,他們嘗試將數據版本控制系統與訓練調度系統打通,為每一次訓練創建快照式數據集副本,同時保留原始數據追蹤能力,以便進行回滾、對比與A/B實驗。

這與LakeFS、Delta Lake等開源系統所強調的“數據快照+版本控制+可審計”體系理念高度一致,也印證了AI模型訓練將進入“版本驅動”新階段。

3. AI場景下的“新三層”架構:分布式存儲+緩存+元數據系統

傳統存儲架構,比如NAS存儲,在面對AI訓練的讀寫壓力時已難以支撐。多個企業開始轉向更適應并發讀寫和多模態數據訪問的分布式架構:

底層采用彈性擴展的分布式文件存儲或對象存儲,提供大容量、高可用;

中間層引入高速緩存機制(如GPU本地緩存、RDMA直通等)緩解延遲;

頂層搭建支持語義索引與任務感知的分布式元數據管理系統,提升非結構化數據的組織和檢索效率。

京東云“云海AI存儲”是一個典型例子。其架構融合自研引擎與RDMA網絡,實現4K隨機寫IOPS千萬級、延遲低于100微秒,支持K8s并發環境下的AI推理和訓練,同時還能做到1.1x副本的低冗余存儲,有效平衡性能與成本。

4. “數據即服務”理念升溫:從存儲系統到數據平臺化治理

在AI系統中,存儲早已不只是“放數據”的地方,而是要提供“按需供給、全程可控”的服務能力。華瑞指數云強調,他們通過自研平臺WADP,實現了存儲層對AI數據全生命周期的統一管理,包括生產庫、原始數據、訓練數據、模型中間結果、KV Cache持久化、RAG知識庫等。

這種“數據即服務”的理念,不再是簡單的數據訪問,而是貫穿采集、處理、標注、訓練、推理、歸檔等所有流程,打造面向AI的“數據供應鏈”系統。

5. 云廠商全面推出AI專用存儲產品

隨著AI成為公有云的新戰場,各大云廠商也在加速推出面向AI場景的專用產品:

京東云“云海AI存儲”通過高度國產化+高性能設計,已支持超百家金融、零售、汽車客戶落地大模型項目;

多家企業提及,未來對象存儲將深度融合AI任務引擎,成為Lakehouse架構核心底座,不僅支持非結構化數據,還要接入向量檢索、語義標引等功能;

隨著訓練、推理數據規模持續增長,KV Cache持久化、Embedding全局共享等新型AI存儲形態也在探索落地。

下一代的AI原生存儲系統,必須是感知型、協同型、平臺型的:它不僅要處理數據,更要理解任務、預測行為、支撐協同——最終成為AI系統的一部分,而非其外部依賴。

在AI狂飆突進的時代,所有人都在談算力、談大模型、談智能涌現。但真正決定一個企業能不能把AI落到業務上,除了關注買了多少GPU,還是能不能“把數據喂進去、喂得起、喂得好”。

這一切的底座,是數據存儲。但今天的行業普遍低估了它的價值。

在我們與多家頭部企業的交流中,越來越多架構負責人正在重構存儲認知:存儲系統不是服務算力的后臺,而是決定AI訓練能不能跑、推理能不能擴、數據能不能控的關鍵組件。

未來,判斷一個企業AI能力的強弱,不再只看模型有多大、參數有多少,還要看:你是不是有一套能實時理解AI任務、自動調度數據資源、全面控制數據生命周期的原生存儲系統;你是不是能做到數據不動模型動,推理集群即取即用;你是不是能用存儲的體系化能力,替代掉工程師那堆手工遷移、腳本補丁、灰色調度的“臨時方案”。

AI的火箭早已升空,但大多數企業還沒把“地基”打好。這是一個行業級的錯配:我們在用為“表單系統”設計的存儲,喂“世界級認知系統”的胃口。

AI不是等存儲準備好了才走,它只會把沒跟上的架構,統統甩在后面。

誰先把數據存儲從“被動配角”變為“主動核心”,誰就真正掌握了AI時代的落地主動權。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
C羅天價續約!沙特基金全力護航,全面滿足C羅的多元化要求!

C羅天價續約!沙特基金全力護航,全面滿足C羅的多元化要求!

星Xin辰大海
2025-06-03 12:57:31
《劍星》官方轉發澀圖 玩家群嘲:故意還是不小心?

《劍星》官方轉發澀圖 玩家群嘲:故意還是不小心?

游民星空
2025-06-03 18:06:07
拔出蘿卜帶出泥!230萬耳環又牽出大瓜,張頌文趙麗穎被牽連其中

拔出蘿卜帶出泥!230萬耳環又牽出大瓜,張頌文趙麗穎被牽連其中

野山歷史
2025-05-18 22:55:19
為什么最近國家開始瘋狂建核電站?其實原因很簡單:

為什么最近國家開始瘋狂建核電站?其實原因很簡單:

現代春秋
2025-06-03 12:50:06
男子2005年花300多萬買的商鋪,征收補償僅189萬!

男子2005年花300多萬買的商鋪,征收補償僅189萬!

張曉磊
2025-05-27 08:07:38
做好準備!隊記:火箭將在新賽季重用謝潑德 球隊內部認可其潛力

做好準備!隊記:火箭將在新賽季重用謝潑德 球隊內部認可其潛力

直播吧
2025-06-03 22:11:20
直到美國說出2個實情,我才知道中國的強大竟給西方這么大的壓力

直到美國說出2個實情,我才知道中國的強大竟給西方這么大的壓力

混沌錄
2025-06-03 21:53:22
中國3000萬光棍時代已結束?人口普查顯示:剩男危機讓人恐慌!

中國3000萬光棍時代已結束?人口普查顯示:剩男危機讓人恐慌!

青眼財經
2025-05-20 19:29:49
陳坤,張柏芝:世上沒有不透風的墻,他們卻做到了

陳坤,張柏芝:世上沒有不透風的墻,他們卻做到了

不八卦掌門人
2025-05-30 23:02:33
美稱中方違反中美日內瓦經貿會談共識,外交部:停止散布虛假信息

美稱中方違反中美日內瓦經貿會談共識,外交部:停止散布虛假信息

澎湃新聞
2025-06-03 14:52:29
中國男足6月5日賽程時間表及CCTV5直播預告

中國男足6月5日賽程時間表及CCTV5直播預告

曦言說
2025-06-04 01:54:07
巴黎圣日耳曼大換血!兩大球星恐被清洗,4500萬歐豪購阿根廷妖星

巴黎圣日耳曼大換血!兩大球星恐被清洗,4500萬歐豪購阿根廷妖星

星耀國際足壇
2025-06-03 23:55:51
白酒界開啟“互懟”!劍南春降900,五糧液跌千元,瀘州老窖很無奈跟上

白酒界開啟“互懟”!劍南春降900,五糧液跌千元,瀘州老窖很無奈跟上

阿天愛旅行
2025-06-02 00:20:10
單項大滿貫男單勝場最多:納達爾法網112場第一,費德勒占據二三

單項大滿貫男單勝場最多:納達爾法網112場第一,費德勒占據二三

直播吧
2025-06-04 01:22:07
羅馬諾:曼城已經和賴因德斯達成一致,將在世俱杯前簽下他

羅馬諾:曼城已經和賴因德斯達成一致,將在世俱杯前簽下他

懂球帝
2025-06-04 00:51:16
比伯破產真相曝光!奢靡至極身心崩潰,被他打壓的妻子卻一夜暴富

比伯破產真相曝光!奢靡至極身心崩潰,被他打壓的妻子卻一夜暴富

吐不滿的痰娛
2025-06-03 19:41:23
再打下去可能滅國,三年前烏克蘭還有4300多萬人,如今還有多少?

再打下去可能滅國,三年前烏克蘭還有4300多萬人,如今還有多少?

井普椿的獨白
2025-06-03 22:34:16
王健林還有多少籌碼

王健林還有多少籌碼

中國企業家雜志
2025-05-29 16:52:12
168票當選!曾經的反華急先鋒,正式當選聯合國大會主席

168票當選!曾經的反華急先鋒,正式當選聯合國大會主席

一個有靈魂的作者
2025-06-03 11:42:41
德羅贊更新社媒:我所有的情感都被剝奪,即使最強大的部分也無法存活

德羅贊更新社媒:我所有的情感都被剝奪,即使最強大的部分也無法存活

雷速體育
2025-06-03 14:32:21
2025-06-04 06:32:49
數據猿DataYuan incentive-icons
數據猿DataYuan
數據智能產業創新服務媒體
2095文章數 585關注度
往期回顧 全部

科技要聞

雷軍最新發聲:YU7志在必得 詳解三大護城河

頭條要聞

李在明當選韓國總統并發表講話:將盡最大努力履職

頭條要聞

李在明當選韓國總統并發表講話:將盡最大努力履職

體育要聞

從家鄉的水泥球場,他一路走上歐洲之巔

娛樂要聞

黃楊鈿甜新劇播出熱議 制片作出回應

財經要聞

清流|中國車企到底有沒有“恒大”?

汽車要聞

擲彈兵 最不像“豪華車”的豪華車

態度原創

數碼
旅游
房產
本地
公開課

數碼要聞

治理“套娃”收費立竿見影 全國有線電視用戶穩定2億戶以上

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

金地華南落子海南自貿港22萬㎡標桿項目,夯實代建行業領軍者地位

本地新聞

《中國匠人——錦繡中國》即日上線:解讀千年絲線的東方美學密碼

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 青神县| 上饶市| 金坛市| 乌拉特前旗| 富锦市| 乐亭县| 莱芜市| 乌拉特前旗| 丰都县| 民勤县| 长顺县| 东阳市| 昌乐县| 平南县| 达孜县| 南投市| 蒙阴县| 固原市| 闸北区| 张家界市| 攀枝花市| 大姚县| 左贡县| 八宿县| 广水市| 武陟县| 乐陵市| 南通市| 天峻县| 容城县| 阿瓦提县| 沂水县| 双辽市| 长子县| 通州区| 岗巴县| 靖安县| 通辽市| 泊头市| 长武县| 遂昌县|