麥肯錫研究報(bào)告顯示,到2030年前,生成式AI有望為全球經(jīng)濟(jì)貢獻(xiàn)7萬(wàn)億美元的價(jià)值。
毫無(wú)疑問(wèn),生成式AI未來(lái)會(huì)影響到千行百業(yè)。正所謂,無(wú)數(shù)據(jù)、不AI。隨著生成式AI逐漸進(jìn)入到垂直行業(yè)之中,存儲(chǔ)等基礎(chǔ)設(shè)施的重要性日趨突出。近日,Gartner正式發(fā)布《Top Storage Recommendations to Support Generative AI》報(bào)告,解讀了生成式AI各個(gè)階段對(duì)于數(shù)據(jù)存儲(chǔ)的需求,給出了生成式AI的存儲(chǔ)選型建議。
大數(shù)據(jù)在線對(duì)該篇報(bào)告進(jìn)行了編譯,以下是報(bào)告全文:
為了支持GenAI應(yīng)用,企業(yè)的底層存儲(chǔ)基礎(chǔ)設(shè)施需要一定的高級(jí)能力。這項(xiàng)研究可幫助基礎(chǔ)設(shè)施和運(yùn)營(yíng)領(lǐng)導(dǎo)者了解這些功能,并為其生成式AI 使用案例選擇正確的存儲(chǔ)部署類型。
概述
影響:
大多數(shù)企業(yè)將不必為生成人工智能(生成式AI)構(gòu)建新的存儲(chǔ)基礎(chǔ)設(shè)施,因?yàn)樗麄儗⑽⒄{(diào)現(xiàn)有的大型語(yǔ)言模型(LLMs),而不是訓(xùn)練新模型。
大規(guī)模生成式AI部署將需要獨(dú)特的存儲(chǔ)性能和數(shù)據(jù)管理功能,用于生成式AI工作流程的數(shù)據(jù)攝取、訓(xùn)練、推理和歸檔階段。
建議:
將數(shù)據(jù)直接引入現(xiàn)成的LLM或部署生成式AI時(shí),獲取“GenAI in a box”融合存儲(chǔ)解決方案。
在使用少量數(shù)據(jù)進(jìn)行訓(xùn)練或采用預(yù)訓(xùn)練模型時(shí),使用現(xiàn)有的企業(yè)存儲(chǔ)平臺(tái):存儲(chǔ)區(qū)域網(wǎng)絡(luò) (SAN)、網(wǎng)絡(luò)附加存儲(chǔ) (NAS)、對(duì)象存儲(chǔ)或超融合基礎(chǔ)設(shè)施 (HCI)。
要運(yùn)行大規(guī)模生成式AI應(yīng)用程序,需要構(gòu)建一個(gè)端到端存儲(chǔ)基礎(chǔ)設(shè)施平臺(tái),該平臺(tái)可以支持生成式AI工作流程的所有應(yīng)用階段:數(shù)據(jù)攝取、訓(xùn)練和微調(diào)、推理和歸檔。它應(yīng)該能夠靈活地管理來(lái)自多個(gè)來(lái)源的數(shù)據(jù),包括數(shù)據(jù)中心、邊緣和公有云。
當(dāng)可以放置在云中的數(shù)據(jù)沒(méi)有限制或者所需計(jì)算和存儲(chǔ)資源的規(guī)模未知時(shí),可以選擇公有云運(yùn)行生成式AI應(yīng)用程序。
戰(zhàn)略規(guī)劃假設(shè)
到2028年,四分之三擁有生成式 AI 訓(xùn)練數(shù)據(jù)的組織將部署單一存儲(chǔ)平臺(tái)來(lái)存儲(chǔ)數(shù)據(jù),這一比例高于 2024 年的 10%。
介紹
基礎(chǔ)設(shè)施和運(yùn)營(yíng) (I&O) 領(lǐng)導(dǎo)者主要從計(jì)算性能的角度評(píng)估AI和生成式AI應(yīng)用程序的基礎(chǔ)設(shè)施。在大多數(shù)情況下,組織在架構(gòu)生成式AI基礎(chǔ)設(shè)施時(shí),服務(wù)器可能需要進(jìn)行重大更新,從基于 CPU 遷移到基于 GPU,以滿足對(duì)計(jì)算能力的極端需求,特別是在語(yǔ)言模型具有許多參數(shù)的情況下。然而,雖然存儲(chǔ)是生成式AI堆棧中的關(guān)鍵層,完成模型訓(xùn)練時(shí)很容易成為瓶頸,但存儲(chǔ)經(jīng)常被組織所忽視。如果大小不正確,存儲(chǔ)可能會(huì)減慢 GPU 的整體數(shù)據(jù)傳輸以及模型檢查點(diǎn)和恢復(fù)過(guò)程,從而造成GPU速度的降低和關(guān)鍵計(jì)算資源的浪費(fèi)。
沒(méi)有一種存儲(chǔ)部署類型適合所有企業(yè),也沒(méi)有一個(gè)單一的功能列表可以指出生成式AI 應(yīng)用程序的最佳存儲(chǔ)類型。如果選擇錯(cuò)誤的存儲(chǔ)部署類型或忽略生成式AI所需的關(guān)鍵存儲(chǔ)功能,那么可能會(huì)給組織帶來(lái)一個(gè)高昂的代價(jià)。
生成式AI使用的存儲(chǔ)需要三組獨(dú)特的功能:
單一、可擴(kuò)展的數(shù)據(jù)湖存儲(chǔ)平臺(tái),可以托管用于模型訓(xùn)練的所有數(shù)據(jù),無(wú)論是基于文件或基于對(duì)象的用例、吞吐量或延遲敏感的工作負(fù)載、大型或小型文件、元數(shù)據(jù)密集型或數(shù)據(jù)密集型訪問(wèn)量大的工作負(fù)載。
一個(gè)可提供足夠高的性能的特定功能集,以在訓(xùn)練階段保持服務(wù)器上的 GPU 占用,并足夠快地完成模型檢查點(diǎn)和恢復(fù)過(guò)程。如果存儲(chǔ)無(wú)法足夠快地將數(shù)據(jù)提供給 GPU,這些 GPU 就會(huì)閑置,這相當(dāng)于浪費(fèi)費(fèi)用。
一組可提供跨本地部署、多個(gè)云和邊緣位置的全局?jǐn)?shù)據(jù)管理功能。訓(xùn)練或完善模型所需的數(shù)據(jù)可能來(lái)自多個(gè)位置。如果沒(méi)有全局?jǐn)?shù)據(jù)管理數(shù)據(jù),則必須對(duì)其進(jìn)行復(fù)制,這會(huì)導(dǎo)致操作復(fù)雜性和容量浪費(fèi)。
獲得這些能力需要存儲(chǔ)現(xiàn)代化,對(duì)于在大規(guī)模數(shù)據(jù)上訓(xùn)練新LLMs的企業(yè)來(lái)說(shuō)尤其緊迫。目前來(lái)看,大多數(shù)企業(yè)不會(huì)采用訓(xùn)練新LLMs這種方法,但仍然需要存儲(chǔ)層的高級(jí)特性和功能來(lái)支持生成式AI應(yīng)用程序。
大多數(shù)組織將采用現(xiàn)有的人工智能模型,或根據(jù)其現(xiàn)有業(yè)務(wù)數(shù)據(jù)重新訓(xùn)練現(xiàn)有模型,并可選擇根據(jù)其業(yè)務(wù)需求添加特定的外部數(shù)據(jù)。對(duì)于在少量數(shù)據(jù)上使用現(xiàn)有 LLMs 的企業(yè)來(lái)說(shuō),一體化、全棧、生成式AI一體式融合存儲(chǔ)解決方案很可能是最佳選擇。此類解決方案不僅包括必要的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)基礎(chǔ)設(shè)施,還包括現(xiàn)成的、經(jīng)過(guò)預(yù)訓(xùn)練的LLM。相比之下,如果組織所需的計(jì)算和/或存儲(chǔ)資源規(guī)模未知,并且在將數(shù)據(jù)存儲(chǔ)在公有云中時(shí)沒(méi)有受到任何限制(通常與安全或隱私相關(guān)),則可能公有云解決方案會(huì)更加合適。
表 1 總結(jié)了建議的存儲(chǔ)部署選項(xiàng),具體取決于所涉及的訓(xùn)練數(shù)據(jù)的大小和性質(zhì)。
影響和建議
大多數(shù)企業(yè)無(wú)需構(gòu)建新的存儲(chǔ)基礎(chǔ)設(shè)施
Gartner 研究表明,五種生成式AI部署模型中只有一種需要構(gòu)建基礎(chǔ)模型或從頭開(kāi)始創(chuàng)建 LLM(參見(jiàn)圖 1 和如何選擇部署生成式AI的方法) 。其余四種類型使用現(xiàn)有的、現(xiàn)成的、預(yù)訓(xùn)練的模型,企業(yè)使用自己的企業(yè)數(shù)據(jù)(有時(shí)用外部數(shù)據(jù)進(jìn)行增強(qiáng))或提示工程和數(shù)據(jù)檢索技術(shù)對(duì)其進(jìn)行微調(diào)。組織越來(lái)越多地考慮將小型語(yǔ)言模型 (SLM) 作為 LLMs 的替代方案,以便快速測(cè)試模型并顯示其針對(duì)特定業(yè)務(wù)或領(lǐng)域用例的投資回報(bào)率。SLM 通常使用不到 1 億個(gè)參數(shù),而 LLMs 使用數(shù)十億個(gè)參數(shù)。
圖 1:生成式 AI 應(yīng)用的存儲(chǔ)部署方法
當(dāng)主要使用現(xiàn)有數(shù)據(jù)進(jìn)行微調(diào)時(shí),有兩種部署存儲(chǔ)的方法:
投資專用的生成式AI盒裝解決方案。這些通常是超融合解決方案,由適當(dāng)大小的存儲(chǔ)、計(jì)算和網(wǎng)絡(luò)以及預(yù)訓(xùn)練的 LLM(類似于 Nutanix 的 GPT-in-a-Box)組成。
使用現(xiàn)有的存儲(chǔ)基礎(chǔ)設(shè)施,無(wú)論數(shù)據(jù)是存儲(chǔ)在文件、對(duì)象或塊存儲(chǔ)、外部或直連存儲(chǔ)還是超融合存儲(chǔ)中。對(duì)于這種方法,如果組織擁有一個(gè)數(shù)據(jù)管理軟件層,可以提供跨不同存儲(chǔ)孤島、本地、邊緣和/或公共云中的數(shù)據(jù)訪問(wèn),則會(huì)有所幫助。
建議
領(lǐng)導(dǎo)者應(yīng)該:
將數(shù)據(jù)直接引入現(xiàn)成的LLM或運(yùn)行生成式AI部署時(shí),獲取生成式AI盒裝融合存儲(chǔ)解決方案。
使用現(xiàn)有的企業(yè)存儲(chǔ)平臺(tái)(SAN、NAS、DFS 或 HCI)來(lái)運(yùn)行小規(guī)模生成式AI試點(diǎn)。
投資數(shù)據(jù)管理解決方案,以提供跨現(xiàn)有存儲(chǔ)的通用訪問(wèn),以及支持自定義標(biāo)記和基于元數(shù)據(jù)的搜索的能力。
在考慮其他供應(yīng)商的新產(chǎn)品之前,請(qǐng)先了解現(xiàn)有存儲(chǔ)供應(yīng)商的生成式AI功能。供應(yīng)商正在快速為 GenAI 構(gòu)建新功能并推出新的專用解決方案。
大規(guī)模生成式AI部署需要先進(jìn)的模型訓(xùn)練和推理能力以及全面的數(shù)據(jù)管理能力
第一波大型復(fù)雜 GenAI 部署開(kāi)始需要能夠提供高效和高性能的數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施。一些 GenAI 工作負(fù)載以 PB 級(jí)數(shù)據(jù)量而聞名,這些數(shù)據(jù)量對(duì)于 GenAI 工作流程的各個(gè)階段有不同的性能和操作要求。對(duì)于這些工作負(fù)載,通常使用數(shù)據(jù)湖或分布式存儲(chǔ)系統(tǒng)(例如 Hadoop 或 Spark)來(lái)存儲(chǔ)訓(xùn)練數(shù)據(jù)和中間輸出。在訓(xùn)練、微調(diào)和推理方面,專門的 GPU 優(yōu)化的高吞吐量基礎(chǔ)設(shè)施堆棧至關(guān)重要。
存儲(chǔ)在此堆棧中發(fā)揮著重要作用,存儲(chǔ)解決方案的選擇取決于人工智能模型的大小。對(duì)于較小的型號(hào),本地連接的磁盤存儲(chǔ)可能就足夠了。但較大的模型通常需要基于對(duì)象存儲(chǔ)或并行文件系統(tǒng)的共享存儲(chǔ)。對(duì)于大規(guī)模 GenAI 系統(tǒng),可擴(kuò)展、高容量和低延遲存儲(chǔ)組件的集成對(duì)于處理非結(jié)構(gòu)化數(shù)據(jù)操作時(shí)的最佳性能至關(guān)重要。
此外,GenAI工作流程的每個(gè)階段都對(duì)數(shù)據(jù)存儲(chǔ)提出了獨(dú)特的要求,如表2所示。
生成式AI工作流階段對(duì)數(shù)據(jù)存儲(chǔ)的影響
大規(guī)模 GenAI 部署將通過(guò)增加數(shù)據(jù)量、需要支持不同的數(shù)據(jù)類型以及需要高效的數(shù)據(jù)版本控制和生命周期管理來(lái)影響非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)領(lǐng)域。由于這些過(guò)程的資源密集型性質(zhì),模型訓(xùn)練和微調(diào)階段對(duì)存儲(chǔ)和相關(guān)基礎(chǔ)設(shè)施提出了獨(dú)特的要求。網(wǎng)絡(luò)和存儲(chǔ)基礎(chǔ)設(shè)施必須適應(yīng)高吞吐量,同時(shí)將數(shù)據(jù)丟失降至最低。它還必須是可組合的,從而支持 GenAI 工作負(fù)載不斷變化的需求。此外,GenAI 數(shù)據(jù)平臺(tái)必須在 GenAI 工作負(fù)載的不同階段之間實(shí)現(xiàn)混合數(shù)據(jù)管理,以實(shí)現(xiàn)數(shù)據(jù)管道的自動(dòng)化。最后,GenAI數(shù)據(jù)平臺(tái)必須支持高于平常的數(shù)據(jù)安全標(biāo)準(zhǔn),以保護(hù)敏感數(shù)據(jù)。
如表 2 所示,“一刀切”的存儲(chǔ)基礎(chǔ)設(shè)施方法不適用于 GenAI 工作負(fù)載,因?yàn)槠涔ぷ髁鞒叹哂挟悩?gòu)性。I&O 領(lǐng)導(dǎo)者不僅應(yīng)該關(guān)注用于訓(xùn)練 GenAI 模型的高性能存儲(chǔ),還應(yīng)該構(gòu)建端到端工作流程策略,包括跨邊緣、公共云和本地存儲(chǔ)解決方案提供數(shù)據(jù)管理功能的能力。
表三概述了您應(yīng)如何評(píng)估存儲(chǔ)平臺(tái)以滿足大規(guī)模 OpenAI 實(shí)施的要求。
大規(guī)模生成型AI基礎(chǔ)設(shè)施的存儲(chǔ)選擇因素
目前,GenAI 的早期采用者正在與超大規(guī)模公共云提供商合作,因?yàn)檫@些提供商可以快速容納任何規(guī)模的試點(diǎn)。超大規(guī)模提供商旨在支持整個(gè)數(shù)據(jù)技術(shù)堆棧,提供以可用LLMs為中心的GenAI開(kāi)發(fā)服務(wù)。此外,亞馬遜網(wǎng)絡(luò)服務(wù)和谷歌(谷歌云)等超大規(guī)模提供商正在戰(zhàn)略性投資于針對(duì)數(shù)據(jù)和存儲(chǔ)進(jìn)行優(yōu)化的專有芯片和互連,以滿足 GenAI 應(yīng)用程序日益增長(zhǎng)的需求。但由于涉及成本、安全性、隱私和專業(yè)LLMs的需求等原因,基于超大規(guī)模的部署并不適用于所有企業(yè)。
為大規(guī)模 GenAI 部署構(gòu)建基礎(chǔ)設(shè)施的 I&O 領(lǐng)導(dǎo)者應(yīng)該:
選擇能夠?yàn)槊嫦驇?順序批處理工作負(fù)載和小文件/隨機(jī) I/O 工作負(fù)載提供高性能的供應(yīng)商和產(chǎn)品,因?yàn)榇蠖鄶?shù)傳統(tǒng)解決方案無(wú)法為這兩種類型提供良好的性能。
使用共享存儲(chǔ)方法來(lái)整合數(shù)據(jù)平臺(tái)并消除生成式AI數(shù)據(jù)管道階段之間的移動(dòng),并提高存儲(chǔ)效率。
通過(guò)使用高性能結(jié)構(gòu)消除瓶頸并最大限度地提高 GPU 利用率,實(shí)現(xiàn)現(xiàn)有存儲(chǔ)網(wǎng)絡(luò)的現(xiàn)代化。
開(kāi)發(fā)跨不同人工智能數(shù)據(jù)管道階段和部署選項(xiàng)(邊緣、核心和公共云)的集成數(shù)據(jù)管理方法,以避免引入存儲(chǔ)孤島。
BREAK AWAY
01
02
03
04
05
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.