導(dǎo)讀:什么才是適配大模型高效訓(xùn)練推理的存儲方案?
從2022年11月,OpenAI發(fā)布人工智能聊天機器人ChatGPT開始,生成式AI模型:AIGC(AI-Generated Content)迎來了爆發(fā)式增長。2023年,AI大模型的火爆還在繼續(xù)。
外界的關(guān)注點更多在模型層面,各個公司、企業(yè)驚嘆于大模型的智能化程度,并開始著手布局大模型。AI大模型作為連接技術(shù)生態(tài)和商業(yè)生態(tài)的橋梁,不斷滲透至垂直領(lǐng)域,賦能千行百業(yè)快速發(fā)展。如此,形成了如今的“百模大戰(zhàn)”,新的基礎(chǔ)大模型不斷涌現(xiàn),各個場景領(lǐng)域的行業(yè)大模型也層出不窮。
實際上,一場更深維度的較量也同時拉開了帷幕,那就是圍繞AI大模型的底層技術(shù)創(chuàng)新。
數(shù)據(jù)是AI的燃料。AI大模型的智能化需要依賴數(shù)據(jù)驅(qū)動,數(shù)據(jù)的規(guī)模和質(zhì)量決定了AI智能的高度。大模型從拼模型到拼數(shù)據(jù),數(shù)據(jù)規(guī)模將影響模型的效果。大模型時代,數(shù)據(jù)存儲的價值從未像今天這樣重要,存儲已經(jīng)成為影響大模型訓(xùn)練推理效率的關(guān)鍵突破口。面對大模型時代的存儲挑戰(zhàn),創(chuàng)新者的腳步從未停止。
AI大模型時代,需要什么樣的存儲方案
AI大模型相比傳統(tǒng)AI模型,在模型參數(shù)、數(shù)據(jù)集等方面截然不同,且表現(xiàn)出的智能化程度更高,一個模型能夠完成以前多個模型完成的任務(wù),在諸多考試方面甚至達到與人類持平。AI大模型已經(jīng)從傳統(tǒng)模型的單模態(tài)走向多模態(tài),包含文本、圖片、視頻、音頻等信息,這種變化帶來了1000倍的數(shù)據(jù)增長,數(shù)據(jù)集規(guī)模達到PB級別,需要更大的存儲空間;從大模型走向超大模型,從幾百萬參數(shù),走向幾億、幾十億,發(fā)展到現(xiàn)在的千億甚至萬億參數(shù),需要更多的GPU計算資源。
在AI大模型底層的硬件基礎(chǔ)設(shè)施中,相比備受關(guān)注的GPU計算資源,存儲的價值往往被低估。實際上,存儲與GPU計算性能、大模型訓(xùn)練效率密切相關(guān)。不妨先看一個很多企業(yè)都很關(guān)注的模型訓(xùn)練成本的例子。
大模型是相當燒錢的賽道。據(jù)悉微軟Azure為ChatGPT構(gòu)建了超過1萬枚英偉達A100 GPU芯片的AI計算集群。ChatGPT一次完整的模型訓(xùn)練成本超過千萬美元。可以說,在訓(xùn)練階段對GPU資源的每分鐘占用都是經(jīng)費在燃燒。
如此巨大的算力消耗,同樣需要有與之相匹配的存儲底座,搭配強大的運力網(wǎng)絡(luò),才能充分發(fā)揮GPU資源,大大提高大模型的訓(xùn)練效率。如果存儲做得不好,將直接影響AI大模型計算集群性能的充分發(fā)揮,造成成本的巨大浪費。
下圖是AI大模型訓(xùn)練過程中一個訓(xùn)練周期的過程圖解。shuffle代表將訓(xùn)練模型的數(shù)據(jù)集打亂,相當于“洗牌”,可以增強算法的魯棒性,從而加快模型的訓(xùn)練速度。R1-RN代表對每一個batch size數(shù)據(jù)集的讀取。C1-CN代表對每一個bacth size數(shù)據(jù)集的訓(xùn)練。黃色的wait_read代表GPU閑置等待時間。
AI大模型訓(xùn)練時,采用數(shù)據(jù)預(yù)讀取的方式進行,即邊訓(xùn)練邊讀取,當GPU開始訓(xùn)練C1時,這時候可以預(yù)讀取R2數(shù)據(jù)集。若存儲性能足夠強大,理想情況下每一個數(shù)據(jù)集的訓(xùn)練可以實現(xiàn)無縫銜接,即黃色的wait_read區(qū)域應(yīng)該是不存在的。但實際情況往往并非如此,GPU會存在等待,以第一次出現(xiàn)的wait_read為例,由于存儲對R3數(shù)據(jù)集的讀取速度太慢,以至于GPU早已完成了對R2數(shù)據(jù)集的訓(xùn)練,但只能等存儲讀取完數(shù)據(jù)之后才能進行R3數(shù)據(jù)集的訓(xùn)練。
同理,強大的存儲還能夠縮短shuffle和CheckPoint保存的時間。為了應(yīng)對在大模型訓(xùn)練過程中出現(xiàn)的GPU故障、網(wǎng)絡(luò)故障、超參設(shè)置不合理等問題,需要定時保存CheckPoint,且保存CheckPoint時,GPU是需要停止訓(xùn)練的。CheckPoint是用來記錄關(guān)鍵點的文件,類似于存儲的“快照”功能,其功能是為了實現(xiàn)“斷點續(xù)訓(xùn)”。時間就是金錢,GPU等待的每分每秒都是金錢在燃燒。
模型訓(xùn)練過程中存儲與計算的交互特點可以總結(jié)為:以海量小文件讀為主,涉及CheckPoint讀寫操作。也就是說,所有黃色的wait區(qū)域,存儲都有大幅優(yōu)化的空間,而IOPS和帶寬成為存儲性能的關(guān)鍵。鑒于大模型每分每秒都在燒錢,如果不重視存儲,整個訓(xùn)練周期下來,黃色區(qū)域浪費掉的計算資源將會非常驚人。
這只是存儲關(guān)鍵價值的一個典型場景。那么綜合來看,AI大模型究竟需要什么樣的存儲?
第一,數(shù)據(jù)共享是多個分布式節(jié)點訓(xùn)練場景下的存儲首要訴求。隨著大模型的參數(shù)規(guī)模越來越大,往往需要幾十上百個節(jié)點并發(fā)訓(xùn)練,若仍采用本地盤的形式,各節(jié)點緩存相同副本導(dǎo)致數(shù)據(jù)成本較高,且本地盤的可擴展性差,單節(jié)點SSD能力存在瓶頸,無法實現(xiàn)數(shù)據(jù)共享。此時,便對數(shù)據(jù)共享提出了強烈訴求,能夠支持數(shù)據(jù)的高效流轉(zhuǎn)。
第二,海量數(shù)據(jù)高并發(fā)處理能力是大模型時代存儲的核心訴求之一。以GPT-4為例,其原始數(shù)據(jù)集規(guī)模已達PB級。AI大模型需要處理海量小文件訓(xùn)練樣本,對應(yīng)海量的元數(shù)據(jù)操作,同時也要兼顧大文件處理。服務(wù)器客戶端與存儲節(jié)點之間要具備高并發(fā),us級低時延的能力。這些都需要存儲具有并發(fā)訪問的能力。
第三,強大的讀寫性能。在大模型訓(xùn)練階段,對訓(xùn)練數(shù)據(jù)樣本存儲要讀得快,對CheckPoint大文件保存也要寫的快,將wait時長無限降低,盡可能減少GPU閑置等待時間,提升模型訓(xùn)練效率。這需要存儲在大小文件場景下都能提供高性能。
第四,數(shù)據(jù)存儲的高可靠、高安全要求。行業(yè)大模型中的數(shù)據(jù)屬于私域數(shù)據(jù),其獨有的高安全、高可靠性屬性且包含敏感信息,要求要有數(shù)據(jù)備份、遠程復(fù)制等。CheckPoint是關(guān)鍵性文件,其保存同樣需要高性能存儲增加可靠性。保障模型訓(xùn)練的穩(wěn)定性,就是省錢。
第五,向量數(shù)據(jù)庫的快速檢索、低時延要求。向量數(shù)據(jù)庫可以一定程度上避免大模型幻覺,及時更新最新的新聞數(shù)據(jù)等,加強對私域數(shù)據(jù)的保護。向量數(shù)據(jù)庫是對共有數(shù)據(jù)集和行業(yè)數(shù)據(jù)集的向量化,由此生成的數(shù)據(jù)庫,可以部署在推理側(cè),大大加快模型的推理速度。因此,同樣需要高性能存儲保存向量數(shù)據(jù)庫,加快檢索速度。
根據(jù)以上這些核心訴求,什么才是適配AI大模型時代的存儲,答案已經(jīng)非常清晰:高性能高可靠的并行文件存儲。
并行文件存儲支持使用多個 IO 路徑將數(shù)據(jù)讀/寫到多個存儲設(shè)備,同時可橫向擴展容納PB級數(shù)據(jù),并支持高帶寬,天然適配AI大模型對存儲的要求。
并行文件系統(tǒng)江湖風(fēng)云再起,華為NFS+嶄露頭角
并行文件系統(tǒng)誕生至今已經(jīng)有20多年的歷史。目前市場上主流的并行文件系統(tǒng)有Lustre、GPFS、NFS等,每種技術(shù)路線都有其特點和適用場景。
Lustre 與GPFS都是應(yīng)用非常廣泛的并行文件系統(tǒng),在石油勘探、衛(wèi)星遙感、氣象預(yù)測等超大規(guī)模高性能計算場景下有廣泛應(yīng)用。兩者都具有按需擴展容量和性能的能力,其容量可擴容到PB級別。
總體來看,Lustre和GPFS的優(yōu)勢在于,通過對底層存儲資源池化,以及元數(shù)據(jù)服務(wù)器MDS等底層設(shè)計,實現(xiàn)計算節(jié)點跟存儲之間N對N多條鏈路訪問,從而保證存儲系統(tǒng)的高性能、高擴展。但是,由于所有數(shù)據(jù)都要經(jīng)由元數(shù)據(jù)服務(wù)器MDS進行交互會話,尤其當面臨AI大模型這種海量數(shù)據(jù)高性能處理需求時,可能會出現(xiàn)單點的性能與可靠性的瓶頸。而且,Lustre與GPFS已經(jīng)較長時間沒有大的更新,難以適配AI時代新的存儲需求。
這就導(dǎo)致在主流方案之外,業(yè)界其實也在期待更能夠滿足AI大模型訓(xùn)練需求的高性能文件存儲方案。
不妨來看看華為的解題思路。華為OceanStor Dorado NAS是公認的高性能文件存儲,其內(nèi)置的OceanFS創(chuàng)新分布式文件系統(tǒng)具備極高的性能和可靠性設(shè)計,小文件性能領(lǐng)先業(yè)界30%,大文件場景領(lǐng)先業(yè)界50%。
今年,華為OceanStor Dorado 全閃存NAS,在OceanFS高性能的基礎(chǔ)上,聯(lián)合openEuler發(fā)布全新NFS+協(xié)議,打造了更高性能的并行文件系統(tǒng),向AI場景發(fā)力。NFS+協(xié)議是華為自研的并行文件訪問客戶端,既可以實現(xiàn)計算節(jié)點跟存儲節(jié)點之間多條鏈路訪問,又規(guī)避了元數(shù)據(jù)服務(wù)器MDS可能帶來的性能與可靠性瓶頸,實現(xiàn)高可靠、高性能、易運維的并行文件存儲體驗。
為什么華為OceanStor Dorado NAS全閃存疊加NFS+后,更能滿足AI大模型時代對存儲的需求,將為企業(yè)帶來哪些價值?
架構(gòu)領(lǐng)先,華為NFS+為AI存儲而生
一種新的技術(shù)路徑是否實現(xiàn)了真正的創(chuàng)新,往往體現(xiàn)在底層架構(gòu)層面。
相比已有的并行文件系統(tǒng),華為NFS+在架構(gòu)層面做了突破與創(chuàng)新:不再設(shè)立元數(shù)據(jù)服務(wù)器MDS這樣的架構(gòu)單元,從而規(guī)避了MDS在性能和可靠性方面的瓶頸,元數(shù)據(jù)不再聚焦于某一個存儲節(jié)點,而是通過分布式文件系統(tǒng)將目錄文件均衡打散到集群,在主機側(cè)和存儲側(cè)都實現(xiàn)多鏈路訪問,從架構(gòu)上保證了存儲系統(tǒng)的高性能、高可靠。
此外,相對于Lustre與GPFS復(fù)雜的管理門檻,華為NFS+內(nèi)置于openEuler操作系統(tǒng),不修改操作系統(tǒng)數(shù)據(jù)面,對主機CPU資源無占用,僅在控制面新增多路徑功能,屏蔽了管理的復(fù)雜性。
具體到AI大模型訓(xùn)練場景中,華為NFS+可以為企業(yè)帶來四大技術(shù)優(yōu)勢:
高性能
華為NFS+通過多IP聚合,實現(xiàn)主機側(cè)與存儲側(cè)之間多鏈路訪問通道,支持多條 IP通道輪詢。服務(wù)器客戶端與每個存儲控制器節(jié)點間RDMA全互聯(lián)、高并發(fā)鏈接,實現(xiàn)極致時延,IO平衡,不存在訪問熱點問題。在大模型訓(xùn)練場景中,華為NFS+智能均衡的特性,可實現(xiàn)無跨核跨控開銷,將GPU計算資源最大程度發(fā)揮出來。通過性能測試,華為NFS+可實現(xiàn)小文件比業(yè)界性能高30%,大文件帶寬高出40%,帶寬密集型業(yè)務(wù)性能高出50%。
高可靠
華為NFS+通過多路徑設(shè)計,可以實現(xiàn)軟硬件故障秒級自動切換。存儲系統(tǒng)的軟硬件故障將直接導(dǎo)致大模型訓(xùn)練故障和重啟。以原生NFS協(xié)議為例,單一鏈路的IO 路徑上一旦出現(xiàn)軟硬件故障,該IO將被掛起,即使通過切換IP地址更換存儲節(jié)點,也不可避免地導(dǎo)致IO短暫歸零。華為NFS+的多鏈路設(shè)計為軟硬件故障提供了充足的冗余空間,可實現(xiàn)故障秒級自動切換鏈路,實現(xiàn)對業(yè)務(wù)無影響。
緩存優(yōu)化
華為NFS+推出了面向海量小文件場景設(shè)計的元數(shù)據(jù)靈活布局和多級緩存技術(shù)。通過增大主機側(cè)緩存大小、延長緩存失效時間,華為NFS+擴大了計算側(cè)處理元數(shù)據(jù)的緩存容量,降低了元數(shù)據(jù)讀取帶寬壓力。通過元數(shù)據(jù)智能預(yù)取與淘汰算法,大大提升了緩存和預(yù)取效率,從而提升模型訓(xùn)練效率。
低時延
華為NFS+支持Storage 數(shù)據(jù)視圖,為數(shù)據(jù)訪問提供最優(yōu)鏈路,降低時延。華為NFS+采用元數(shù)據(jù)順序表布局,可以大幅提高文件定位速度。客戶端感知文件所在存儲控制器節(jié)點位置,直接與對應(yīng)節(jié)點高效放置和訪問數(shù)據(jù),保障極致時延。根據(jù)性能測試,數(shù)據(jù)視圖方式可將訓(xùn)練樣本小IO隨機讀性能提升4倍以上,將CheckPoint大文件切片+多路徑傳輸提升4-6倍帶寬能力。
大模型時代,在相同計算資源投入下,如何提升AI大模型訓(xùn)練效率、降低成本成為企業(yè)致勝的關(guān)鍵。在文件存儲領(lǐng)域,華為NFS+從場景出發(fā),敢于探索架構(gòu)創(chuàng)新,為解決大模型時代存儲瓶頸提供了全新的思路與解決方案,將助力提升生成式AI產(chǎn)業(yè)的創(chuàng)新效率。
文中圖片來自攝圖網(wǎng)
本文為「智能進化論」原創(chuàng)作品。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.