99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

并行文件系統(tǒng)風(fēng)云再起,華為NFS+讓大模型效率飛升

0
分享至

導(dǎo)讀:什么才是適配大模型高效訓(xùn)練推理的存儲方案?

從2022年11月,OpenAI發(fā)布人工智能聊天機器人ChatGPT開始,生成式AI模型:AIGC(AI-Generated Content)迎來了爆發(fā)式增長。2023年,AI大模型的火爆還在繼續(xù)。

外界的關(guān)注點更多在模型層面,各個公司、企業(yè)驚嘆于大模型的智能化程度,并開始著手布局大模型。AI大模型作為連接技術(shù)生態(tài)和商業(yè)生態(tài)的橋梁,不斷滲透至垂直領(lǐng)域,賦能千行百業(yè)快速發(fā)展。如此,形成了如今的“百模大戰(zhàn)”,新的基礎(chǔ)大模型不斷涌現(xiàn),各個場景領(lǐng)域的行業(yè)大模型也層出不窮。

實際上,一場更深維度的較量也同時拉開了帷幕,那就是圍繞AI大模型的底層技術(shù)創(chuàng)新。

數(shù)據(jù)是AI的燃料。AI大模型的智能化需要依賴數(shù)據(jù)驅(qū)動,數(shù)據(jù)的規(guī)模和質(zhì)量決定了AI智能的高度。大模型從拼模型到拼數(shù)據(jù),數(shù)據(jù)規(guī)模將影響模型的效果。大模型時代,數(shù)據(jù)存儲的價值從未像今天這樣重要,存儲已經(jīng)成為影響大模型訓(xùn)練推理效率的關(guān)鍵突破口。面對大模型時代的存儲挑戰(zhàn),創(chuàng)新者的腳步從未停止。



AI大模型時代,需要什么樣的存儲方案

AI大模型相比傳統(tǒng)AI模型,在模型參數(shù)、數(shù)據(jù)集等方面截然不同,且表現(xiàn)出的智能化程度更高,一個模型能夠完成以前多個模型完成的任務(wù),在諸多考試方面甚至達到與人類持平。AI大模型已經(jīng)從傳統(tǒng)模型的單模態(tài)走向多模態(tài),包含文本、圖片、視頻、音頻等信息,這種變化帶來了1000倍的數(shù)據(jù)增長,數(shù)據(jù)集規(guī)模達到PB級別,需要更大的存儲空間;從大模型走向超大模型,從幾百萬參數(shù),走向幾億、幾十億,發(fā)展到現(xiàn)在的千億甚至萬億參數(shù),需要更多的GPU計算資源。

在AI大模型底層的硬件基礎(chǔ)設(shè)施中,相比備受關(guān)注的GPU計算資源,存儲的價值往往被低估。實際上,存儲與GPU計算性能、大模型訓(xùn)練效率密切相關(guān)。不妨先看一個很多企業(yè)都很關(guān)注的模型訓(xùn)練成本的例子。

大模型是相當燒錢的賽道。據(jù)悉微軟Azure為ChatGPT構(gòu)建了超過1萬枚英偉達A100 GPU芯片的AI計算集群。ChatGPT一次完整的模型訓(xùn)練成本超過千萬美元。可以說,在訓(xùn)練階段對GPU資源的每分鐘占用都是經(jīng)費在燃燒。

如此巨大的算力消耗,同樣需要有與之相匹配的存儲底座,搭配強大的運力網(wǎng)絡(luò),才能充分發(fā)揮GPU資源,大大提高大模型的訓(xùn)練效率。如果存儲做得不好,將直接影響AI大模型計算集群性能的充分發(fā)揮,造成成本的巨大浪費。

下圖是AI大模型訓(xùn)練過程中一個訓(xùn)練周期的過程圖解。shuffle代表將訓(xùn)練模型的數(shù)據(jù)集打亂,相當于“洗牌”,可以增強算法的魯棒性,從而加快模型的訓(xùn)練速度。R1-RN代表對每一個batch size數(shù)據(jù)集的讀取。C1-CN代表對每一個bacth size數(shù)據(jù)集的訓(xùn)練。黃色的wait_read代表GPU閑置等待時間。



AI大模型訓(xùn)練時,采用數(shù)據(jù)預(yù)讀取的方式進行,即邊訓(xùn)練邊讀取,當GPU開始訓(xùn)練C1時,這時候可以預(yù)讀取R2數(shù)據(jù)集。若存儲性能足夠強大,理想情況下每一個數(shù)據(jù)集的訓(xùn)練可以實現(xiàn)無縫銜接,即黃色的wait_read區(qū)域應(yīng)該是不存在的。但實際情況往往并非如此,GPU會存在等待,以第一次出現(xiàn)的wait_read為例,由于存儲對R3數(shù)據(jù)集的讀取速度太慢,以至于GPU早已完成了對R2數(shù)據(jù)集的訓(xùn)練,但只能等存儲讀取完數(shù)據(jù)之后才能進行R3數(shù)據(jù)集的訓(xùn)練。

同理,強大的存儲還能夠縮短shuffle和CheckPoint保存的時間。為了應(yīng)對在大模型訓(xùn)練過程中出現(xiàn)的GPU故障、網(wǎng)絡(luò)故障、超參設(shè)置不合理等問題,需要定時保存CheckPoint,且保存CheckPoint時,GPU是需要停止訓(xùn)練的。CheckPoint是用來記錄關(guān)鍵點的文件,類似于存儲的“快照”功能,其功能是為了實現(xiàn)“斷點續(xù)訓(xùn)”。時間就是金錢,GPU等待的每分每秒都是金錢在燃燒。

模型訓(xùn)練過程中存儲與計算的交互特點可以總結(jié)為:以海量小文件讀為主,涉及CheckPoint讀寫操作。也就是說,所有黃色的wait區(qū)域,存儲都有大幅優(yōu)化的空間,而IOPS和帶寬成為存儲性能的關(guān)鍵。鑒于大模型每分每秒都在燒錢,如果不重視存儲,整個訓(xùn)練周期下來,黃色區(qū)域浪費掉的計算資源將會非常驚人。

這只是存儲關(guān)鍵價值的一個典型場景。那么綜合來看,AI大模型究竟需要什么樣的存儲?

第一,數(shù)據(jù)共享是多個分布式節(jié)點訓(xùn)練場景下的存儲首要訴求。隨著大模型的參數(shù)規(guī)模越來越大,往往需要幾十上百個節(jié)點并發(fā)訓(xùn)練,若仍采用本地盤的形式,各節(jié)點緩存相同副本導(dǎo)致數(shù)據(jù)成本較高,且本地盤的可擴展性差,單節(jié)點SSD能力存在瓶頸,無法實現(xiàn)數(shù)據(jù)共享。此時,便對數(shù)據(jù)共享提出了強烈訴求,能夠支持數(shù)據(jù)的高效流轉(zhuǎn)。

第二,海量數(shù)據(jù)高并發(fā)處理能力是大模型時代存儲的核心訴求之一。以GPT-4為例,其原始數(shù)據(jù)集規(guī)模已達PB級。AI大模型需要處理海量小文件訓(xùn)練樣本,對應(yīng)海量的元數(shù)據(jù)操作,同時也要兼顧大文件處理。服務(wù)器客戶端與存儲節(jié)點之間要具備高并發(fā),us級低時延的能力。這些都需要存儲具有并發(fā)訪問的能力。

第三,強大的讀寫性能。在大模型訓(xùn)練階段,對訓(xùn)練數(shù)據(jù)樣本存儲要讀得快,對CheckPoint大文件保存也要寫的快,將wait時長無限降低,盡可能減少GPU閑置等待時間,提升模型訓(xùn)練效率。這需要存儲在大小文件場景下都能提供高性能。

第四,數(shù)據(jù)存儲的高可靠、高安全要求。行業(yè)大模型中的數(shù)據(jù)屬于私域數(shù)據(jù),其獨有的高安全、高可靠性屬性且包含敏感信息,要求要有數(shù)據(jù)備份、遠程復(fù)制等。CheckPoint是關(guān)鍵性文件,其保存同樣需要高性能存儲增加可靠性。保障模型訓(xùn)練的穩(wěn)定性,就是省錢。

第五,向量數(shù)據(jù)庫的快速檢索、低時延要求。向量數(shù)據(jù)庫可以一定程度上避免大模型幻覺,及時更新最新的新聞數(shù)據(jù)等,加強對私域數(shù)據(jù)的保護。向量數(shù)據(jù)庫是對共有數(shù)據(jù)集和行業(yè)數(shù)據(jù)集的向量化,由此生成的數(shù)據(jù)庫,可以部署在推理側(cè),大大加快模型的推理速度。因此,同樣需要高性能存儲保存向量數(shù)據(jù)庫,加快檢索速度。

根據(jù)以上這些核心訴求,什么才是適配AI大模型時代的存儲,答案已經(jīng)非常清晰:高性能高可靠的并行文件存儲。

并行文件存儲支持使用多個 IO 路徑將數(shù)據(jù)讀/寫到多個存儲設(shè)備,同時可橫向擴展容納PB級數(shù)據(jù),并支持高帶寬,天然適配AI大模型對存儲的要求。



并行文件系統(tǒng)江湖風(fēng)云再起,華為NFS+嶄露頭角

并行文件系統(tǒng)誕生至今已經(jīng)有20多年的歷史。目前市場上主流的并行文件系統(tǒng)有Lustre、GPFS、NFS等,每種技術(shù)路線都有其特點和適用場景。

Lustre 與GPFS都是應(yīng)用非常廣泛的并行文件系統(tǒng),在石油勘探、衛(wèi)星遙感、氣象預(yù)測等超大規(guī)模高性能計算場景下有廣泛應(yīng)用。兩者都具有按需擴展容量和性能的能力,其容量可擴容到PB級別。

總體來看,Lustre和GPFS的優(yōu)勢在于,通過對底層存儲資源池化,以及元數(shù)據(jù)服務(wù)器MDS等底層設(shè)計,實現(xiàn)計算節(jié)點跟存儲之間N對N多條鏈路訪問,從而保證存儲系統(tǒng)的高性能、高擴展。但是,由于所有數(shù)據(jù)都要經(jīng)由元數(shù)據(jù)服務(wù)器MDS進行交互會話,尤其當面臨AI大模型這種海量數(shù)據(jù)高性能處理需求時,可能會出現(xiàn)單點的性能與可靠性的瓶頸。而且,Lustre與GPFS已經(jīng)較長時間沒有大的更新,難以適配AI時代新的存儲需求。

這就導(dǎo)致在主流方案之外,業(yè)界其實也在期待更能夠滿足AI大模型訓(xùn)練需求的高性能文件存儲方案。



不妨來看看華為的解題思路。華為OceanStor Dorado NAS是公認的高性能文件存儲,其內(nèi)置的OceanFS創(chuàng)新分布式文件系統(tǒng)具備極高的性能和可靠性設(shè)計,小文件性能領(lǐng)先業(yè)界30%,大文件場景領(lǐng)先業(yè)界50%。

今年,華為OceanStor Dorado 全閃存NAS,在OceanFS高性能的基礎(chǔ)上,聯(lián)合openEuler發(fā)布全新NFS+協(xié)議,打造了更高性能的并行文件系統(tǒng),向AI場景發(fā)力。NFS+協(xié)議是華為自研的并行文件訪問客戶端,既可以實現(xiàn)計算節(jié)點跟存儲節(jié)點之間多條鏈路訪問,又規(guī)避了元數(shù)據(jù)服務(wù)器MDS可能帶來的性能與可靠性瓶頸,實現(xiàn)高可靠、高性能、易運維的并行文件存儲體驗。

為什么華為OceanStor Dorado NAS全閃存疊加NFS+后,更能滿足AI大模型時代對存儲的需求,將為企業(yè)帶來哪些價值?

架構(gòu)領(lǐng)先,華為NFS+為AI存儲而生

一種新的技術(shù)路徑是否實現(xiàn)了真正的創(chuàng)新,往往體現(xiàn)在底層架構(gòu)層面。

相比已有的并行文件系統(tǒng),華為NFS+在架構(gòu)層面做了突破與創(chuàng)新:不再設(shè)立元數(shù)據(jù)服務(wù)器MDS這樣的架構(gòu)單元,從而規(guī)避了MDS在性能和可靠性方面的瓶頸,元數(shù)據(jù)不再聚焦于某一個存儲節(jié)點,而是通過分布式文件系統(tǒng)將目錄文件均衡打散到集群,在主機側(cè)和存儲側(cè)都實現(xiàn)多鏈路訪問,從架構(gòu)上保證了存儲系統(tǒng)的高性能、高可靠。

此外,相對于Lustre與GPFS復(fù)雜的管理門檻,華為NFS+內(nèi)置于openEuler操作系統(tǒng),不修改操作系統(tǒng)數(shù)據(jù)面,對主機CPU資源無占用,僅在控制面新增多路徑功能,屏蔽了管理的復(fù)雜性。

具體到AI大模型訓(xùn)練場景中,華為NFS+可以為企業(yè)帶來四大技術(shù)優(yōu)勢:

高性能


華為NFS+通過多IP聚合,實現(xiàn)主機側(cè)與存儲側(cè)之間多鏈路訪問通道,支持多條 IP通道輪詢。服務(wù)器客戶端與每個存儲控制器節(jié)點間RDMA全互聯(lián)、高并發(fā)鏈接,實現(xiàn)極致時延,IO平衡,不存在訪問熱點問題。在大模型訓(xùn)練場景中,華為NFS+智能均衡的特性,可實現(xiàn)無跨核跨控開銷,將GPU計算資源最大程度發(fā)揮出來。通過性能測試,華為NFS+可實現(xiàn)小文件比業(yè)界性能高30%,大文件帶寬高出40%,帶寬密集型業(yè)務(wù)性能高出50%。

高可靠

華為NFS+通過多路徑設(shè)計,可以實現(xiàn)軟硬件故障秒級自動切換。存儲系統(tǒng)的軟硬件故障將直接導(dǎo)致大模型訓(xùn)練故障和重啟。以原生NFS協(xié)議為例,單一鏈路的IO 路徑上一旦出現(xiàn)軟硬件故障,該IO將被掛起,即使通過切換IP地址更換存儲節(jié)點,也不可避免地導(dǎo)致IO短暫歸零。華為NFS+的多鏈路設(shè)計為軟硬件故障提供了充足的冗余空間,可實現(xiàn)故障秒級自動切換鏈路,實現(xiàn)對業(yè)務(wù)無影響。

緩存優(yōu)化

華為NFS+推出了面向海量小文件場景設(shè)計的元數(shù)據(jù)靈活布局和多級緩存技術(shù)。通過增大主機側(cè)緩存大小、延長緩存失效時間,華為NFS+擴大了計算側(cè)處理元數(shù)據(jù)的緩存容量,降低了元數(shù)據(jù)讀取帶寬壓力。通過元數(shù)據(jù)智能預(yù)取與淘汰算法,大大提升了緩存和預(yù)取效率,從而提升模型訓(xùn)練效率。

低時延


華為NFS+支持Storage 數(shù)據(jù)視圖,為數(shù)據(jù)訪問提供最優(yōu)鏈路,降低時延。華為NFS+采用元數(shù)據(jù)順序表布局,可以大幅提高文件定位速度。客戶端感知文件所在存儲控制器節(jié)點位置,直接與對應(yīng)節(jié)點高效放置和訪問數(shù)據(jù),保障極致時延。根據(jù)性能測試,數(shù)據(jù)視圖方式可將訓(xùn)練樣本小IO隨機讀性能提升4倍以上,將CheckPoint大文件切片+多路徑傳輸提升4-6倍帶寬能力。

大模型時代,在相同計算資源投入下,如何提升AI大模型訓(xùn)練效率、降低成本成為企業(yè)致勝的關(guān)鍵。在文件存儲領(lǐng)域,華為NFS+從場景出發(fā),敢于探索架構(gòu)創(chuàng)新,為解決大模型時代存儲瓶頸提供了全新的思路與解決方案,將助力提升生成式AI產(chǎn)業(yè)的創(chuàng)新效率。

文中圖片來自攝圖網(wǎng)

本文為「智能進化論」原創(chuàng)作品。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
微信轉(zhuǎn)賬時,出現(xiàn)這四個字,一定要停止轉(zhuǎn)款,即便是熟人也不行

微信轉(zhuǎn)賬時,出現(xiàn)這四個字,一定要停止轉(zhuǎn)款,即便是熟人也不行

農(nóng)村情感故事
2025-07-16 13:33:48
笑不活了!暑假主要經(jīng)濟來源之“貪污”買菜錢~哈哈哈哈哈哈

笑不活了!暑假主要經(jīng)濟來源之“貪污”買菜錢~哈哈哈哈哈哈

滑稽斑馬呀
2025-07-16 16:00:23
特朗普又遭背刺!眼看局勢失控,美財長喊話:中國有我們要的東西

特朗普又遭背刺!眼看局勢失控,美財長喊話:中國有我們要的東西

云上烏托邦
2025-07-17 13:27:33
這一次,官宣喜訊的董璇,徹底撕下了陳思誠積攢了這么多年的體面

這一次,官宣喜訊的董璇,徹底撕下了陳思誠積攢了這么多年的體面

溫讀史
2025-07-17 11:16:32
傅崐萁再出手,韓國瑜關(guān)鍵時刻失約,賴清德重啟宣講,黃國昌亮了

傅崐萁再出手,韓國瑜關(guān)鍵時刻失約,賴清德重啟宣講,黃國昌亮了

小玡說故事
2025-07-16 20:28:03
1959年,毛澤東回鄉(xiāng),看到父母墳頭草叢有小洞,立刻做了一個動作

1959年,毛澤東回鄉(xiāng),看到父母墳頭草叢有小洞,立刻做了一個動作

近史談
2025-07-15 10:47:29
紅極一時的中國“十大笑星”現(xiàn)狀,多位已去世,僅4人健在

紅極一時的中國“十大笑星”現(xiàn)狀,多位已去世,僅4人健在

深析古今
2025-04-16 11:41:34
女籃亞洲杯四強揭曉:中國順利晉級,日韓隊意外出局引熱議。

女籃亞洲杯四強揭曉:中國順利晉級,日韓隊意外出局引熱議。

半余天
2025-07-17 10:57:29
新婚爸爸、熟人介紹與川西墜崖真相:那天沒人能回家

新婚爸爸、熟人介紹與川西墜崖真相:那天沒人能回家

觀察鑒娛
2025-07-16 10:48:24
你和異性做過最癲狂的事是啥?網(wǎng)友:給他吃我的口水,有點惡心吧

你和異性做過最癲狂的事是啥?網(wǎng)友:給他吃我的口水,有點惡心吧

解讀熱點事件
2025-07-15 19:58:10
朱孝天直播談大S落淚,希望汪小菲賺很多錢養(yǎng)孩子!網(wǎng)友聽后淚奔

朱孝天直播談大S落淚,希望汪小菲賺很多錢養(yǎng)孩子!網(wǎng)友聽后淚奔

大笑江湖史
2025-07-17 07:41:35
廣東某銀行高管被實名舉報,單位回應(yīng)惹爭議,網(wǎng)友評論太扎心

廣東某銀行高管被實名舉報,單位回應(yīng)惹爭議,網(wǎng)友評論太扎心

墨蘭史書
2025-07-16 19:06:32
第四國正式入局!戰(zhàn)局突變,烏克蘭挑釁中國,中方閃電反制

第四國正式入局!戰(zhàn)局突變,烏克蘭挑釁中國,中方閃電反制

智觀科技
2025-07-12 17:55:04
隊記:湖人未收到詹姆斯交易或買斷申請 首要任務(wù)仍是續(xù)約東契奇

隊記:湖人未收到詹姆斯交易或買斷申請 首要任務(wù)仍是續(xù)約東契奇

醉臥浮生
2025-07-17 09:21:10
你身邊悶聲發(fā)大財?shù)亩际鞘裁葱袠I(yè)?看完網(wǎng)友分享,刷新了我認知

你身邊悶聲發(fā)大財?shù)亩际鞘裁葱袠I(yè)?看完網(wǎng)友分享,刷新了我認知

特約前排觀眾
2025-07-17 00:05:03
用命控訴!湖北87歲老人跳塘自盡,難忍辱罵虐待,黑心兒媳終獲刑

用命控訴!湖北87歲老人跳塘自盡,難忍辱罵虐待,黑心兒媳終獲刑

水泥土的搞笑
2025-07-16 17:28:17
“有分數(shù)沒腦子”,高考670分男生兼職被抓,到手的浙大夢碎了

“有分數(shù)沒腦子”,高考670分男生兼職被抓,到手的浙大夢碎了

知曉科普
2025-07-16 11:20:13
一名殯葬專業(yè)學(xué)生曬課表,操作規(guī)范叫人瑟瑟發(fā)抖,就業(yè)前景不一般

一名殯葬專業(yè)學(xué)生曬課表,操作規(guī)范叫人瑟瑟發(fā)抖,就業(yè)前景不一般

南南說娛
2025-07-05 09:49:27
天太熱!印度供電快扛不住了

天太熱!印度供電快扛不住了

看看新聞Knews
2025-07-16 21:04:57
《哪吒2》8月重新上映,楊紫瓊配音,這次可不只是為了沖200億!

《哪吒2》8月重新上映,楊紫瓊配音,這次可不只是為了沖200億!

草莓解說體育
2025-07-15 13:57:20
2025-07-17 14:56:49
智能進化論 incentive-icons
智能進化論
關(guān)注AI產(chǎn)業(yè)趨勢、場景應(yīng)用
374文章數(shù) 68關(guān)注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

女律師在愛康國賓體檢10年沒預(yù)警 在國外確診癌癥晚期

頭條要聞

女律師在愛康國賓體檢10年沒預(yù)警 在國外確診癌癥晚期

體育要聞

過去一年的頭號贏家,他說偶像永遠是媽媽

娛樂要聞

黃楊鈿甜星途被毀 戴假貨沒人找她代言

財經(jīng)要聞

宗氏三兄妹在港起訴宗馥莉文書曝光

汽車要聞

8月初上市 長安第三代UNI-V勁擎型嘗鮮價11.49萬

態(tài)度原創(chuàng)

藝術(shù)
時尚
手機
本地
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

“渣女上衣”火了?巨洋氣巨顯瘦!誰穿誰好看!

手機要聞

S26 Ultra轉(zhuǎn)投索尼傳感器!三星手機影像終于有救了?

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調(diào)色盤?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 玉龙| 大姚县| 汝州市| 临猗县| 黑山县| 平泉县| 泰宁县| 北安市| 深泽县| 江山市| 芦溪县| 昌邑市| 沾化县| 久治县| 东山县| 潞西市| 云南省| 雷山县| 青田县| 上思县| 黄龙县| 赫章县| 蒙山县| 巫溪县| 屏山县| 卫辉市| 福海县| 呈贡县| 甘南县| 凉山| 葵青区| 聂拉木县| 鄱阳县| 巴彦县| 哈巴河县| 县级市| 民权县| 余姚市| 秦皇岛市| 视频| 江津市|