企業數智化轉型的過程是數據價值釋放的過程,數智世界加速而來,數據正在“覺醒”,成為越來越重要的新型生產要素,加速數據資產化。
“在AI的推動下,數據正在經歷五大變化:從冷數據到溫數據的價值激活,從成本中心到利潤中心的變現加快,從向量到張量的檢索精度提升,從10GB/s到100GB/s的讀寫吞吐率提升,從被動安全到主動安全的安全加固?!痹谌A為中國合作伙伴大會2024上,華為數據存儲產品線總裁周躍峰如是說。
華為數據存儲產品線總裁周躍峰
邁向AI時代,數據的價值發生巨大變化,當數據變成重要的生產要素,這意味著對數據要素的價值釋放提出更高目標。
AI時代,從冷數據到溫數據的價值激活
在數字化時代,我們常聽到一個詞:數據驅動。數據驅動業務、數據驅動決策等背后所代表的是對數據的收集和分析、沉淀,但這時對數據利用的深度和廣度并不足,也經常以冷、溫、熱來區別數據的可用度。但進入智能化時代,數據擔當的角色發生了巨大改變。
正如周躍峰所說,當下企業有很多歸檔的冷數據,隨著AI時代的到來,冷數據將不復存在,一定會變成溫數據,甚至熱數據,數據的含義從過去僅僅是信息的記錄和保存,變成資產去進行大模型訓練、挖掘知識、產生新的服務。
例如,當AI大模型作為新的先進手段應用于氣象預報后,大量的歷史數據需要參與AI模型的訓練、調優,進而提高模型預測的準確率,在這個過程中,封存幾十年的歷史數據因此被激活、被喚醒。冷數據需要被隨時調用,變成了溫數據,AI促進“數據覺醒時代”的到來。
數據要素投入生產數盡其用,從成本到“變現”
伴隨數智世界的到來,數據量快速增長。根據IDC報告顯示,中國數據量規模將從2022年的23.88ZB增長至2027年的76.6ZB,年均增長速度CAGR達到26.3%,為全球第一,全球數據量規模預計增長一倍以上,到2027年將達到284.3ZB。
高速增長的數據量規模帶來巨大的硬件和維護成本,在AI時代之前,很多企業并沒有完全認識到數據的價值,或者說沒有足夠的技術來充分利用數據,因此,數據的價值常常無法得到最大化體現,數據具有較高的存儲、計算和管理成本。
AI時代,從冷數據到溫數據,當存在“角落”的冷數據創造產生新的價值,意味著其具備了“變現”能力,數據要素投入生產數盡其用,數據轉化為可量化、可交易、可持續增值的資產,實現從成本中心到利潤中心的變現加快。
例如,在醫療行業,通過分析患者的醫療記錄和健康信息,醫療機構能夠更精確地制定治療方案,預測患者的治療反應,提高診療質量和效率。并進而可以與保險行業結合,通過分析個體的醫療數據,保險公司可以更準確地評估客戶的風險等級,從而合理定價保險產品,包括定制化保險產品等,加速數據“變現”。
從向量到張量數據,理解復雜世界
進入AI時代,數據處理的復雜度進一步提升,如何從海量的、多維度的數據中提取有價值信息,以適應各種各樣的業務場景已經成為了至關重要的問題。
在傳統的數據處理中,數據一般被認為是向量,向量是元素的一維列表,不適用于復雜的數據處理,以及容易造成信息丟失,并可能需要消耗大量的計算資源和時間。進入AI深度學習領域,張量可以看作是高維度的數據,它就像一個多維數據的數組。例如,一張彩色圖片可以看作是一個三維張量,前兩個維度表示圖片的長和寬,第三個維度表示RGB的三個顏色通道和顏色強度。
從向量到張量的轉變,使得AI大模型能夠理解和表示更為復雜的模式和規律,從而在圖片、聲音、視頻等復雜數據處理上有了更好的性能,檢索精度提升,進而對于真實世界的復雜性有更深的理解。
從10GB/s到100GB/s的讀寫吞吐率提升
從數字化到智能化,帶來的另一個顯著變化是對處理處理性能上的要求提升,最直觀的體現是數據存儲讀寫吞吐率的提升。
大模型訓練涉及到大量的數據讀取和寫入,數據的讀寫速度能夠直接影響模型的訓練速度和效率,所以需要數據存儲設備具有足夠的I/O性能。相比HDD,全閃存介質支持高IOPS、低時延,更適用于AI大模型訓練階段的隨機讀寫場景。
存儲內生安全,守護數據安全最后一道防線
此外,安全是伴隨數智化、智能化發展的永恒話題。在全世界范圍內,勒索攻擊事件發生的頻率越來越高,大中型企業深受其擾。
根據區塊鏈數據分析機構Chainalysis公布的一組數據顯示,2023年勒索軟件攻擊者從受害者處勒索的加密貨幣價值就超過10億美元,創下歷史新高。過去幾年間,針對能源、金融、制造等行業的勒索攻擊事件持續上演,日前勒索攻擊團伙“國際獵手”針對日本豪雅株式會社攻擊索要1000萬美元贖金的事件又成為熱點。網絡勒索成為數字空間最大的威脅來源,針對此類攻擊的安全防護成為企業關注的重點。
存儲作為數據安全的最后一道防線,在勒索攻擊防護上扮演著重要的角色,存儲內生安全應當成為未來存儲系統必須具備的基礎能力。存儲內生安全體系架構從存儲設備安全、數據安全防護能力,結合安全管理流程,補齊網絡安全能力,能夠實現從被動安全到主動安全的安全加固,守護企業核心數據資產安全。
AI時代,數據覺醒,構筑“以存強算、以存強訓、以存強安”的領先數據基礎設施
AI促進“數據覺醒”,作為數據保存的保險箱和數據價值挖掘的發動機,面向未來的存儲要如何適配變化,才能充分激活數據資產潛能?
首要地,數據存儲技術一定是向著更高性能邁進,例如從以存算一體為代表的傳統存儲架構向存算分離的新型架構不斷演進,實現資源池化和極致彈性,推動分布式數據庫進核心生產系統;其次,在AI訓練中存儲不應該僅僅起到對訓練數據的支撐作用,更重要的是在整個資源消耗巨大的訓練系統中,讓數據的可用性效率得到極大提升;再者,在存儲側多層聯動勒索攻擊防護,主動守護數據安全。
面向AI時代,華為通過OceanStor Dorado全閃存和CANTIAN引擎,推動分布式數據庫向“存算分離+統一存儲”的多主架構升級,實現以存強算;打造AI數據湖解決方案,實現AI訓練數據全局可視、可管、可用,訓練數據歸集、預處理和訓練效率倍增,以存強訓;首創多層聯動勒索攻擊防護(MRP)技術,通過存網協同檢測、協同響應和協同恢復三大核心能力,更好地應對數據被勒索的風險,實現以存強安。
總之,“數據覺醒”時代,AI加速數據資產化,數據引擎正在被注入巨大動能。在加速行業數智化轉型的旅程中,助力行業企業打造領先的數據基礎設施,以存強算,以存強訓,以存強安,作為推動者,華為正以先進數據存力為AI激活數據資產潛能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.