就像“巧婦難為無米之炊”,沒有數據的AI同樣“養”不出大模型。
當時間回溯到2018年,當時OpenAI發布了GPT模型,這是一個擁有1750萬參數的巨型模型。當時GPT模型還只是在AI領域中引起了轟動。而在2023年初,就逐漸呈現出了現在的故事版本——Chat GPT的火爆讓“文本生成”“語言翻譯”“語音識別”幾乎成了街知巷聞的“科學素養”。而在另一端,“百模大戰”硝煙起,大型模型的數量開始爆炸式增長,各個科技公司和研究機構都紛紛開發自己的大型模型,以求在AI市場中占據一席之地。
沒有數據就沒有AI。AI需要大量的數據作為“養料”來進行模型訓練和深度學習,這些數據需要被存儲在某個地方,以便隨時可供使用。存儲就像糧倉一樣,儲存著AI所需的“糧食”。
數據從未如此重要
如今,消費者和商業用戶正在不知不覺中參與人工智能和機器學習。從消費者的角度來看,我們從流媒體上觀看喜愛的節目,7*24小時與機器人客服反饋產品問題,隨時查到下一趟公交車的到站時間;從商業的角度來看,無論大型公司還是小型團隊,都可以利用人工智能和機器學習來獲得更好的洞察,支持其業務目標的實現。
麥肯錫在名為《2025年的數據驅動企業》的報告中表示:“大多數員工將使用數據優化工作的幾乎每一個方面,那些能夠以最快的速度取得最大進展的人將從數據支持的功能中獲得最高價值。“
數據中心作為數字經濟背后的關鍵基礎設施,在向消費者和企業提供新的人工智能工具方面發揮關鍵作用。這也就是為什么谷歌、微軟、AWS等等各大科技巨頭在新數據中心上花費數十億美元的原因。
幾乎所有的IT團隊都在探索人工智能和機器學習如何為組織帶來的機會,并支持其能夠為未來的業務增長進行擴展。一個不容小覷的要素是支持這些新興應用所需的數據存儲基礎設施。根據商業數據平臺Statista的數據,從2010年到2022年,全球創建、捕獲、復制和消費的數據量增加了60倍,并且這些增長呈現出逐年加快的態勢。人工智能革命正在推動更多云數據存儲的需求。
也從未如此帶來挑戰
新的存儲需求飛速增長。《財富商業洞察》表示,全球數據存儲市場預計將從2023年的2473.2億美元增長到2030年的7779.8億美元。越來越多的公司需要更多的數據,以及更多的存儲位置。
不只是專注于人工智能的新興公司,傳統企業對數據存儲的依賴也越來越高。最直接的挑戰是,儲存不足會使大型生產設施無法運轉。豐田汽車公司在8月份就因為“磁盤空間不足”導致了系統停止運行,這波及了其在日本14家工廠的28條生產線。在豐田公司對外公布的說明中顯示:“在發生故障前一天進行系統維護過程時,數據庫中積累的數據被刪除和整理,由于磁盤空間不足而發生錯誤,導致系統停止。由于這些服務器在同一系統上運行,備份功能也發生了類似的故障,并且無法進行切換。”故障發生第二天將數據傳輸到容量更大的服務器后,系統才恢復了,而工廠在故障發生第三天才恢復運行。
1086.9億美元的云存儲市場、6798.0億美元的數字廣告市場、萬億美元的科技公司、大型全球制造商,硬盤正在人工智能、數字廣告和云存儲等領域發揮著越來越關鍵的作用。
云計算、內容創建和AI并不是抽象的概念或者僅僅是無形軟件,現實世界中的的數據中心是人工智能的支柱。無論是AI模型的訓練、推理還是部署,都需要數據作為支撐,數據的質量、數量和多樣性直接影響了AI模型的效果和性能。數據的處理不僅需要大量的計算資源,更需要安全可靠的超大存儲空間。數據存儲的挑戰比以往任何時候都要大,高密度、低功耗成為可靠性之外,數據存儲領域最大的挑戰。這也就不難理解,為何希捷計劃在2024年底推出50TB的機械硬盤了。
未來十年HDD主導數據中心
糧倉是糧食存放和保管的重要場所,而數據存儲系統也扮演著“糧倉”的角色——它要為數據提供安全、穩定的存放環境。
ResNet-50是一種深度神經網絡模型,常用于圖像識別和計算機視覺任務。該模型在大型圖像數據庫ImageNet上進行訓練,要知道,ImageNet上包含了超過1400萬張具有一百萬個注釋的圖像。ResNet-50的訓練過程需要大量的數據和計算資源,由于模型訓練需要快速I/O和分布式集群計算,因此其存儲系統的性能對模型訓練的速度和質量有很大的影響。
從磁帶存儲系統到5.25英寸磁盤驅動器,再到HDD、SSD,存儲介質的變化伴隨著數據需求的變化起伏。如今,就數據存儲形態和用圖來看,磁帶仍在被使用,但只用于留存數據;SSD價格多年來逐步下滑,性價比優勢逐漸提升,但仍然很貴;構建和管理更具有成本效益的基礎設施,對于數據中心來說比以往更重要,在數據中心創建的新數據仍需要更多的機械硬盤來存儲。
如今,全球磁盤驅動器市場被希捷、西部數據和東芝占據,而作為出貨量占據市場份額第一的希捷,其舉動更是代表了這一行業的走向。從這幾年希捷專注的HAMR(熱輔助磁記錄)和雙磁臂技術來看,HAMR技術可以使用更小、更穩定的磁性顆粒,這些小顆粒可以更密集地排列,從而進一步提高盤片的面密度,進而提高磁盤的整體容量。HAMR硬盤推向市場,改變了磁盤容量增長的節奏,雙磁臂技術(MACH.2)則可以有效提升高密度磁盤的性能表現。
就像汽車需要燃油或者電池一樣,沒有地方存儲數據,人工智能什么都做不了。在華爾街分析師Robert Castellano看來,硬盤制造商是“人工智能存儲需求增加的主要受益者,預計未來10年硬盤將主導數據中心。”而《福布斯》雜志在最近的一篇文章中預測,從2020年到2028年,硬盤容量出貨量將增長900%。
人工智能不斷發展,數據和存儲的需求將會持續增長,對于未來的AI應用來說,如何更好地管理和利用這些數據將成為決定其成功的關鍵因素之一。數據的價值和存儲系統的可靠性比以往任何時候都更加重要。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.