并行文件系統(tǒng)風(fēng)云再起，華為NFS+讓大模型效率飛升

2023-09-05 16:45:32　來源: 智能進化論

北京舉報

分享至

導(dǎo)讀：什么才是適配大模型高效訓(xùn)練推理的存儲方案？

從2022年11月，OpenAI發(fā)布人工智能聊天機器人ChatGPT開始，生成式AI模型：AIGC（AI-Generated Content）迎來了爆發(fā)式增長。2023年，AI大模型的火爆還在繼續(xù)。

外界的關(guān)注點更多在模型層面，各個公司、企業(yè)驚嘆于大模型的智能化程度，并開始著手布局大模型。AI大模型作為連接技術(shù)生態(tài)和商業(yè)生態(tài)的橋梁，不斷滲透至垂直領(lǐng)域，賦能千行百業(yè)快速發(fā)展。如此，形成了如今的“百模大戰(zhàn)”，新的基礎(chǔ)大模型不斷涌現(xiàn)，各個場景領(lǐng)域的行業(yè)大模型也層出不窮。

實際上，一場更深維度的較量也同時拉開了帷幕，那就是圍繞AI大模型的底層技術(shù)創(chuàng)新。

數(shù)據(jù)是AI的燃料。AI大模型的智能化需要依賴數(shù)據(jù)驅(qū)動，數(shù)據(jù)的規(guī)模和質(zhì)量決定了AI智能的高度。大模型從拼模型到拼數(shù)據(jù)，數(shù)據(jù)規(guī)模將影響模型的效果。大模型時代，數(shù)據(jù)存儲的價值從未像今天這樣重要，存儲已經(jīng)成為影響大模型訓(xùn)練推理效率的關(guān)鍵突破口。面對大模型時代的存儲挑戰(zhàn)，創(chuàng)新者的腳步從未停止。

AI大模型時代，需要什么樣的存儲方案

AI大模型相比傳統(tǒng)AI模型，在模型參數(shù)、數(shù)據(jù)集等方面截然不同，且表現(xiàn)出的智能化程度更高，一個模型能夠完成以前多個模型完成的任務(wù)，在諸多考試方面甚至達到與人類持平。AI大模型已經(jīng)從傳統(tǒng)模型的單模態(tài)走向多模態(tài)，包含文本、圖片、視頻、音頻等信息，這種變化帶來了1000倍的數(shù)據(jù)增長，數(shù)據(jù)集規(guī)模達到PB級別，需要更大的存儲空間；從大模型走向超大模型，從幾百萬參數(shù)，走向幾億、幾十億，發(fā)展到現(xiàn)在的千億甚至萬億參數(shù)，需要更多的GPU計算資源。

在AI大模型底層的硬件基礎(chǔ)設(shè)施中，相比備受關(guān)注的GPU計算資源，存儲的價值往往被低估。實際上，存儲與GPU計算性能、大模型訓(xùn)練效率密切相關(guān)。不妨先看一個很多企業(yè)都很關(guān)注的模型訓(xùn)練成本的例子。

大模型是相當燒錢的賽道。據(jù)悉微軟Azure為ChatGPT構(gòu)建了超過1萬枚英偉達A100 GPU芯片的AI計算集群。ChatGPT一次完整的模型訓(xùn)練成本超過千萬美元。可以說，在訓(xùn)練階段對GPU資源的每分鐘占用都是經(jīng)費在燃燒。

如此巨大的算力消耗，同樣需要有與之相匹配的存儲底座，搭配強大的運力網(wǎng)絡(luò)，才能充分發(fā)揮GPU資源，大大提高大模型的訓(xùn)練效率。如果存儲做得不好，將直接影響AI大模型計算集群性能的充分發(fā)揮，造成成本的巨大浪費。

下圖是AI大模型訓(xùn)練過程中一個訓(xùn)練周期的過程圖解。shuffle代表將訓(xùn)練模型的數(shù)據(jù)集打亂，相當于“洗牌”，可以增強算法的魯棒性，從而加快模型的訓(xùn)練速度。R1-RN代表對每一個batch size數(shù)據(jù)集的讀取。C1-CN代表對每一個bacth size數(shù)據(jù)集的訓(xùn)練。黃色的wait_read代表GPU閑置等待時間。

AI大模型訓(xùn)練時，采用數(shù)據(jù)預(yù)讀取的方式進行，即邊訓(xùn)練邊讀取，當GPU開始訓(xùn)練C1時，這時候可以預(yù)讀取R2數(shù)據(jù)集。若存儲性能足夠強大，理想情況下每一個數(shù)據(jù)集的訓(xùn)練可以實現(xiàn)無縫銜接，即黃色的wait_read區(qū)域應(yīng)該是不存在的。但實際情況往往并非如此，GPU會存在等待，以第一次出現(xiàn)的wait_read為例，由于存儲對R3數(shù)據(jù)集的讀取速度太慢，以至于GPU早已完成了對R2數(shù)據(jù)集的訓(xùn)練，但只能等存儲讀取完數(shù)據(jù)之后才能進行R3數(shù)據(jù)集的訓(xùn)練。

同理，強大的存儲還能夠縮短shuffle和CheckPoint保存的時間。為了應(yīng)對在大模型訓(xùn)練過程中出現(xiàn)的GPU故障、網(wǎng)絡(luò)故障、超參設(shè)置不合理等問題，需要定時保存CheckPoint，且保存CheckPoint時，GPU是需要停止訓(xùn)練的。CheckPoint是用來記錄關(guān)鍵點的文件，類似于存儲的“快照”功能，其功能是為了實現(xiàn)“斷點續(xù)訓(xùn)”。時間就是金錢，GPU等待的每分每秒都是金錢在燃燒。

模型訓(xùn)練過程中存儲與計算的交互特點可以總結(jié)為：以海量小文件讀為主，涉及CheckPoint讀寫操作。也就是說，所有黃色的wait區(qū)域，存儲都有大幅優(yōu)化的空間，而IOPS和帶寬成為存儲性能的關(guān)鍵。鑒于大模型每分每秒都在燒錢，如果不重視存儲，整個訓(xùn)練周期下來，黃色區(qū)域浪費掉的計算資源將會非常驚人。

這只是存儲關(guān)鍵價值的一個典型場景。那么綜合來看，AI大模型究竟需要什么樣的存儲？

第一，數(shù)據(jù)共享是多個分布式節(jié)點訓(xùn)練場景下的存儲首要訴求。隨著大模型的參數(shù)規(guī)模越來越大，往往需要幾十上百個節(jié)點并發(fā)訓(xùn)練，若仍采用本地盤的形式，各節(jié)點緩存相同副本導(dǎo)致數(shù)據(jù)成本較高，且本地盤的可擴展性差，單節(jié)點SSD能力存在瓶頸，無法實現(xiàn)數(shù)據(jù)共享。此時，便對數(shù)據(jù)共享提出了強烈訴求，能夠支持數(shù)據(jù)的高效流轉(zhuǎn)。

第二，海量數(shù)據(jù)高并發(fā)處理能力是大模型時代存儲的核心訴求之一。以GPT-4為例，其原始數(shù)據(jù)集規(guī)模已達PB級。AI大模型需要處理海量小文件訓(xùn)練樣本，對應(yīng)海量的元數(shù)據(jù)操作，同時也要兼顧大文件處理。服務(wù)器客戶端與存儲節(jié)點之間要具備高并發(fā)，us級低時延的能力。這些都需要存儲具有并發(fā)訪問的能力。

第三，強大的讀寫性能。在大模型訓(xùn)練階段，對訓(xùn)練數(shù)據(jù)樣本存儲要讀得快，對CheckPoint大文件保存也要寫的快，將wait時長無限降低，盡可能減少GPU閑置等待時間，提升模型訓(xùn)練效率。這需要存儲在大小文件場景下都能提供高性能。

第四，數(shù)據(jù)存儲的高可靠、高安全要求。行業(yè)大模型中的數(shù)據(jù)屬于私域數(shù)據(jù)，其獨有的高安全、高可靠性屬性且包含敏感信息，要求要有數(shù)據(jù)備份、遠程復(fù)制等。CheckPoint是關(guān)鍵性文件，其保存同樣需要高性能存儲增加可靠性。保障模型訓(xùn)練的穩(wěn)定性，就是省錢。

第五，向量數(shù)據(jù)庫的快速檢索、低時延要求。向量數(shù)據(jù)庫可以一定程度上避免大模型幻覺，及時更新最新的新聞數(shù)據(jù)等，加強對私域數(shù)據(jù)的保護。向量數(shù)據(jù)庫是對共有數(shù)據(jù)集和行業(yè)數(shù)據(jù)集的向量化，由此生成的數(shù)據(jù)庫，可以部署在推理側(cè)，大大加快模型的推理速度。因此，同樣需要高性能存儲保存向量數(shù)據(jù)庫，加快檢索速度。

根據(jù)以上這些核心訴求，什么才是適配AI大模型時代的存儲，答案已經(jīng)非常清晰：高性能高可靠的并行文件存儲。

并行文件存儲支持使用多個 IO 路徑將數(shù)據(jù)讀/寫到多個存儲設(shè)備，同時可橫向擴展容納PB級數(shù)據(jù)，并支持高帶寬，天然適配AI大模型對存儲的要求。

并行文件系統(tǒng)江湖風(fēng)云再起，華為NFS+嶄露頭角

并行文件系統(tǒng)誕生至今已經(jīng)有20多年的歷史。目前市場上主流的并行文件系統(tǒng)有Lustre、GPFS、NFS等，每種技術(shù)路線都有其特點和適用場景。

Lustre 與GPFS都是應(yīng)用非常廣泛的并行文件系統(tǒng)，在石油勘探、衛(wèi)星遙感、氣象預(yù)測等超大規(guī)模高性能計算場景下有廣泛應(yīng)用。兩者都具有按需擴展容量和性能的能力，其容量可擴容到PB級別。

總體來看，Lustre和GPFS的優(yōu)勢在于，通過對底層存儲資源池化，以及元數(shù)據(jù)服務(wù)器MDS等底層設(shè)計，實現(xiàn)計算節(jié)點跟存儲之間N對N多條鏈路訪問，從而保證存儲系統(tǒng)的高性能、高擴展。但是，由于所有數(shù)據(jù)都要經(jīng)由元數(shù)據(jù)服務(wù)器MDS進行交互會話，尤其當面臨AI大模型這種海量數(shù)據(jù)高性能處理需求時，可能會出現(xiàn)單點的性能與可靠性的瓶頸。而且，Lustre與GPFS已經(jīng)較長時間沒有大的更新，難以適配AI時代新的存儲需求。

這就導(dǎo)致在主流方案之外，業(yè)界其實也在期待更能夠滿足AI大模型訓(xùn)練需求的高性能文件存儲方案。

不妨來看看華為的解題思路。華為OceanStor Dorado NAS是公認的高性能文件存儲，其內(nèi)置的OceanFS創(chuàng)新分布式文件系統(tǒng)具備極高的性能和可靠性設(shè)計，小文件性能領(lǐng)先業(yè)界30%，大文件場景領(lǐng)先業(yè)界50%。

今年，華為OceanStor Dorado 全閃存NAS，在OceanFS高性能的基礎(chǔ)上，聯(lián)合openEuler發(fā)布全新NFS+協(xié)議，打造了更高性能的并行文件系統(tǒng)，向AI場景發(fā)力。NFS+協(xié)議是華為自研的并行文件訪問客戶端，既可以實現(xiàn)計算節(jié)點跟存儲節(jié)點之間多條鏈路訪問，又規(guī)避了元數(shù)據(jù)服務(wù)器MDS可能帶來的性能與可靠性瓶頸，實現(xiàn)高可靠、高性能、易運維的并行文件存儲體驗。

為什么華為OceanStor Dorado NAS全閃存疊加NFS+后，更能滿足AI大模型時代對存儲的需求，將為企業(yè)帶來哪些價值？

架構(gòu)領(lǐng)先，華為NFS+為AI存儲而生

一種新的技術(shù)路徑是否實現(xiàn)了真正的創(chuàng)新，往往體現(xiàn)在底層架構(gòu)層面。

相比已有的并行文件系統(tǒng)，華為NFS+在架構(gòu)層面做了突破與創(chuàng)新：不再設(shè)立元數(shù)據(jù)服務(wù)器MDS這樣的架構(gòu)單元，從而規(guī)避了MDS在性能和可靠性方面的瓶頸，元數(shù)據(jù)不再聚焦于某一個存儲節(jié)點，而是通過分布式文件系統(tǒng)將目錄文件均衡打散到集群，在主機側(cè)和存儲側(cè)都實現(xiàn)多鏈路訪問，從架構(gòu)上保證了存儲系統(tǒng)的高性能、高可靠。

此外，相對于Lustre與GPFS復(fù)雜的管理門檻，華為NFS+內(nèi)置于openEuler操作系統(tǒng)，不修改操作系統(tǒng)數(shù)據(jù)面，對主機CPU資源無占用，僅在控制面新增多路徑功能，屏蔽了管理的復(fù)雜性。

具體到AI大模型訓(xùn)練場景中，華為NFS+可以為企業(yè)帶來四大技術(shù)優(yōu)勢：

高性能

華為NFS+通過多IP聚合，實現(xiàn)主機側(cè)與存儲側(cè)之間多鏈路訪問通道，支持多條 IP通道輪詢。服務(wù)器客戶端與每個存儲控制器節(jié)點間RDMA全互聯(lián)、高并發(fā)鏈接，實現(xiàn)極致時延，IO平衡，不存在訪問熱點問題。在大模型訓(xùn)練場景中，華為NFS+智能均衡的特性，可實現(xiàn)無跨核跨控開銷，將GPU計算資源最大程度發(fā)揮出來。通過性能測試，華為NFS+可實現(xiàn)小文件比業(yè)界性能高30%，大文件帶寬高出40%，帶寬密集型業(yè)務(wù)性能高出50%。

高可靠

華為NFS+通過多路徑設(shè)計，可以實現(xiàn)軟硬件故障秒級自動切換。存儲系統(tǒng)的軟硬件故障將直接導(dǎo)致大模型訓(xùn)練故障和重啟。以原生NFS協(xié)議為例，單一鏈路的IO 路徑上一旦出現(xiàn)軟硬件故障，該IO將被掛起，即使通過切換IP地址更換存儲節(jié)點，也不可避免地導(dǎo)致IO短暫歸零。華為NFS+的多鏈路設(shè)計為軟硬件故障提供了充足的冗余空間，可實現(xiàn)故障秒級自動切換鏈路，實現(xiàn)對業(yè)務(wù)無影響。

緩存優(yōu)化

華為NFS+推出了面向海量小文件場景設(shè)計的元數(shù)據(jù)靈活布局和多級緩存技術(shù)。通過增大主機側(cè)緩存大小、延長緩存失效時間，華為NFS+擴大了計算側(cè)處理元數(shù)據(jù)的緩存容量，降低了元數(shù)據(jù)讀取帶寬壓力。通過元數(shù)據(jù)智能預(yù)取與淘汰算法，大大提升了緩存和預(yù)取效率，從而提升模型訓(xùn)練效率。

低時延

華為NFS+支持Storage 數(shù)據(jù)視圖，為數(shù)據(jù)訪問提供最優(yōu)鏈路，降低時延。華為NFS+采用元數(shù)據(jù)順序表布局，可以大幅提高文件定位速度。客戶端感知文件所在存儲控制器節(jié)點位置，直接與對應(yīng)節(jié)點高效放置和訪問數(shù)據(jù)，保障極致時延。根據(jù)性能測試，數(shù)據(jù)視圖方式可將訓(xùn)練樣本小IO隨機讀性能提升4倍以上，將CheckPoint大文件切片+多路徑傳輸提升4-6倍帶寬能力。

大模型時代，在相同計算資源投入下，如何提升AI大模型訓(xùn)練效率、降低成本成為企業(yè)致勝的關(guān)鍵。在文件存儲領(lǐng)域，華為NFS+從場景出發(fā)，敢于探索架構(gòu)創(chuàng)新，為解決大模型時代存儲瓶頸提供了全新的思路與解決方案，將助力提升生成式AI產(chǎn)業(yè)的創(chuàng)新效率。

文中圖片來自攝圖網(wǎng)

本文為「智能進化論」原創(chuàng)作品。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.