99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

南京大學李武軍教授課題組分布式訓練算法,大模型訓練加速3.8倍

0
分享至



李武軍教授為通訊作者,碩士生林昊(已畢業,現工作于阿里巴巴)、吳軻、李杰為共同第一作者,博士生李俊為參與作者。

訓練成本高昂已經成為大模型和人工智能可持續發展的主要障礙之一。

大模型的訓練往往采用多機多卡的分布式訓練,大模型的分布式訓練挑戰巨大,即使硬件足夠,不熟悉分布式訓練的人大概率(實驗中驗證有 64%-87% 的概率)會因為超參數設置(模型怎么切分和排布、數據怎么切分和排布等)不合理而無法成功運行訓練過程。

此外,不熟悉分布式訓練的人在碰到大模型訓練慢時容易只想到增加 GPU 硬件等橫向拓展(scale-out)方法,而忽略了分布式訓練算法的縱向拓展(scale-up)作用。

實際上,分布式訓練算法會極大地影響硬件的算力利用率。高效能分布式訓練算法具有高算力利用率。用同樣的硬件算力訓練同一個模型,高效能分布式訓練算法會比低效能分布式訓練算法速度快,最高可能會快數倍甚至數十倍以上。

也就是說,訓練同一個模型,高效能分布式訓練算法會比低效能分布式訓練算法成本低,最高可能會節省數倍甚至數十倍以上的算力成本。很多已有的分布式訓練算法的效能較低,甚至可能導致機器和 GPU 卡越多、訓練速度越慢的結果。

南京大學計算機學院李武軍教授課題組研發了高效能分布式訓練算法UniAP,并基于 UniAP 研發了相應的大模型分布式訓練平臺和框架



  • 論文標題:UniAP: Unifying Inter- and Intra-Layer Automatic Parallelism by Mixed Integer Quadratic Programming
  • 論文地址:https://arxiv.org/abs/2307.16375

UniAP 是首個能實現層內并行策略(張量并行等)和層間并行策略(流水線并行等)聯合優化的工作。給定模型和硬件平臺,UniAP 能夠通過自動搜索找到高效能的分布式訓練方案,既解決了效率和成本問題(實驗中,比已有的最好方法最高快 3.8 倍,比不采用并行策略優化的算法最高快 9 倍),也解決了很多人在大模型分布式訓練時因為超參數設置(模型怎么切分和排布、數據怎么切分和排布等)不合理而無法成功運行訓練過程的問題,即易用性問題。

此外,還實現了 UniAP 跟國產 AI 計算卡的適配。相關工作為大模型訓練的降本增效提供了核心技術、(國產)平臺和框架。

論文被 CVPR 2025 錄用為 Oral(所有投稿論文的 0.7%,所有錄用論文的 3.3%)。

方法簡介

并行策略的設置是影響分布式訓練算法效能的重要因素。當前主流的并行策略包括流水線并行、數據并行、張量并行、全分片數據并行等四種并行策略。這些并行策略可以被分成以下兩類:

  • 層內并行策略:僅切分模型的層內張量,包括以數據并行、張量并行、全分片數據并行等為代表的并行策略;
  • 層間并行策略:僅切分模型的層為多個互斥子集,包括流水線并行等并行策略。

基于已有的并行策略,大量的研究工作集中于并行方法的設計。這些并行方法可以按照是否需要用戶手動指定并行策略劃分為兩類:手動并行方法和自動并行方法。傳統的手動并行方法不僅耗時耗力,而且難以適應復雜的硬件環境。

而現有的自動并行方法存在的問題是它們要么只考慮層內或層間兩類并行策略中的一類并行策略,要么把兩類并行策略做分階段優化而不是聯合優化,求解得到的并行策略的訓練效率存在提升空間。

UniAP 使用混合整數二次規劃進行建模,實現對層內與層間并行策略的聯合優化。這種聯合優化使得 UniAP 有更大的策略探索空間。

UniAP 的架構圖如下:



UniAP 首先對硬件和模型進行性能評估。然后,UniAP 會根據性能評估的結果和模型的計算圖構建代價模型。根據代價模型和模型的計算圖,UniAP 將優化問題建模為一個混合整數二次規劃問題并進行優化。最后,UniAP 會將優化結果由向量轉化成以計算圖形式表達的并行計劃,交由已有深度學習平臺(如 PyTorch)進行訓練。

性能評估和代價模型

因為自動并行框架要求在執行分布式訓練前優化并行策略,所以框架需要對分布式訓練的性能和開銷進行模擬,再在模擬的結果上進行優化。

因此,對環境和任務進行性能評估是自動并行框架的重要組成部分。具體地,在性能評估部分,UniAP 將收集硬件和模型的性能信息,如 P2P 通信效率、All-Reduce 集合通信效率、模型每一層的前向計算的時間開銷和顯存開銷等。

出于時間效率考慮,一個自動并行框架只能完成有限的性能評估任務,然后根據性能評估的結果構建代價模型。UniAP 的代價模型分為時間代價模型和顯存代價模型。前者用于估計模型采用不同并行策略的時間開銷,包括計算時間開銷和通信時間開銷;后者用于估計模型采用不同并行策略的顯存占用開銷。

混合整數二次規劃形式

UniAP 的混合整數二次規劃的目標是設定并行策略,使得訓練中每次迭代所消耗的時間(Time-Per-Iteration,簡稱 TPI)最小化。





統一優化過程

根據混合整數二次規劃的表達式,現有的優化器可以直接解得給定流水線的度 pp_size 和微批量數量 的情況下最優的并行策略組合。但因為 pp_size 和 c 是流水線并行的超參數,所以 UniAP 也需要統一優化這兩個變量才能求得最優的并行策略組合。UniAP 通過枚舉這兩個變量來解決這個問題,算法偽代碼如下(原文算法 1):



實驗結果

論文在 4 種典型的硬件環境(NVIDIA GPU V100、TITAN XP、A100,和國產卡海光 DCU),5 種不同的基于 Transformer 的模型(BERT、T5、ViT、Swin-Transformer、Llama)上進行實驗。

首先是在 NVIDIA GPU 上和其他自動并行方法(Galvatron 和 Alpa)的對比(原論文表 1):



其中 ENVA 是一臺 8 卡 V100,ENVB-8 是兩臺 4 卡 TITAN XP,ENVC 是一臺 8 卡 A100。可以發現,在這 3 種硬件環境下,UniAP 的吞吐量均不差于兩個 baseline,最大的提升達到 3.8 倍;而 UniAP 的策略優化時間更是遠遠小于兩個 baseline,最大縮短 107 倍。

然后是在國產 AI 計算卡上和手動并行方法的對比。選取的 baseline 是國際主流的大模型訓練框架 Megatron 和 DeepSpeed。兩個框架中均有分布式訓練的相關參數需要設置,實驗中,枚舉所有可能的設置,每個設置實際跑一定的輪次記錄吞吐量,選取性能最好的做為吞吐量結果,選取整個過程的時間為策略優化時間。結果如下(原論文表 2):



其中硬件設置是 8 個 4 卡 DCU 節點。從表中可見,UniAP 找到了所有可行策略中的最優解,同時相較于手動暴力搜索,大大節約了策略優化時間。

在可拓展性方面,論文在最大 64 卡的集群上進行實驗,驗證了近線性拓展性(原論文圖 5 和表 4):





另外,論文還通過對實驗中 Megatron 的策略空間的分析深度探討了自動并行的必要性(原論文表 3):



從表中可以看出,對于一個沒有分布式訓練經驗的人來說,從所有支持的并行策略中隨機選擇一個,有 64.1%(41/64)到 87.5%(42/48)的概率會因為策略選擇不合理而導致模型無法成功運行訓練過程(出現顯存溢出等);即使選擇到了能成功運行訓練過程的策略,最快的策略和最慢的策略間的速度最大相差了 2.01/0.22≈9 倍。更多討論可見原文。

全文小結

UniAP具有如下優點:

高效性:在相同硬件條件下,UniAP 訓練速度比已有最好方法最高快 3.8 倍,即成本降低 3.8 倍;

易用性:用戶無需理解流水線劃分、張量分片等復雜概念,UniAP 平臺能自動生成最優方案,自動規避 64%-87% 的無效策略,讓沒有分布式訓練經驗的用戶,也能像使用單卡訓練模型般輕松使用集群的大規模算力;

適配國產 AI 計算卡:已適配海光 DCU 等國產 AI 計算卡,為提升國產卡的效能和易用性提供了潛在的解決方案,有望加速國產 AI 基礎設施的普及進程。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
小沈陽哥哥開直播回應:三年不跟小沈陽來往,沒出名時就看不上他

小沈陽哥哥開直播回應:三年不跟小沈陽來往,沒出名時就看不上他

洲洲影視娛評
2025-04-24 19:45:02
四川大學華西醫院陳大年作為第一作者發表Nature論文,發現易患癌細胞的共同特征

四川大學華西醫院陳大年作為第一作者發表Nature論文,發現易患癌細胞的共同特征

生物世界
2025-05-01 16:33:28
伊朗再次有尊嚴的體面的跪下了,大有你不給面子我就跪死在你面前

伊朗再次有尊嚴的體面的跪下了,大有你不給面子我就跪死在你面前

歸史
2025-04-11 13:33:10
定居美國10余年,78歲卻回國“撈金”,她憑啥被稱“人民藝術家”

定居美國10余年,78歲卻回國“撈金”,她憑啥被稱“人民藝術家”

夢史
2025-04-01 11:59:20
曝董襲瑩40天后臨產:父親廳級領導,博士論文僅24頁,最新照流出

曝董襲瑩40天后臨產:父親廳級領導,博士論文僅24頁,最新照流出

博士觀察
2025-04-30 18:39:48
上線即涼涼!小楊哥的復出夢碎了

上線即涼涼!小楊哥的復出夢碎了

娛樂白名單
2025-04-27 20:30:21
開播首日登頂衛視收視冠軍,演員頂配加持,這劇必須二刷!

開播首日登頂衛視收視冠軍,演員頂配加持,這劇必須二刷!

阿廢冷眼觀察所
2025-05-01 14:44:06
湖南104歲老人去世,蓋棺時,她突然掀開壽被大喊:走,打麻將去

湖南104歲老人去世,蓋棺時,她突然掀開壽被大喊:走,打麻將去

忠于法紀
2025-04-30 18:20:34
肖醫生被開除,剩下的疑點怎么解釋?

肖醫生被開除,剩下的疑點怎么解釋?

新民周刊
2025-04-30 16:07:45
山西省委:排查風險隱患,堅決防范遏制重大安全事故發生

山西省委:排查風險隱患,堅決防范遏制重大安全事故發生

政知新媒體
2025-05-01 11:25:01
蔡正元爆被抓內幕,涉及馬英九,大陸軍機圍臺,藍營立委:打下來

蔡正元爆被抓內幕,涉及馬英九,大陸軍機圍臺,藍營立委:打下來

挺觀世界
2025-04-30 22:30:13
每個月要交公糧28次,丈夫受不了,妻子卻說:每月2次都無法滿足

每個月要交公糧28次,丈夫受不了,妻子卻說:每月2次都無法滿足

胖胖侃咖
2025-04-03 08:00:11
少見!今晚王剛、張玉寧、法比奧、恩加德烏4人先后擔任國安隊長

少見!今晚王剛、張玉寧、法比奧、恩加德烏4人先后擔任國安隊長

直播吧
2025-05-01 21:41:30
巴媒:內馬爾威脅要從國家隊退役,而巴西足協仍將聘請熱蘇斯

巴媒:內馬爾威脅要從國家隊退役,而巴西足協仍將聘請熱蘇斯

直播吧
2025-05-01 23:18:13
韓媒報道C羅:4年無冠悲痛欲絕…瘋子一樣自言自語,眼淚奪眶而出

韓媒報道C羅:4年無冠悲痛欲絕…瘋子一樣自言自語,眼淚奪眶而出

直播吧
2025-05-01 18:06:53
古力娜扎穿透視裙,懟著鏡頭硬拍,這實力不簡單

古力娜扎穿透視裙,懟著鏡頭硬拍,這實力不簡單

星辰生肖館
2025-04-16 11:04:23
西安市教育局發布告家長書!

西安市教育局發布告家長書!

小鬼頭體育
2025-05-01 14:03:41
大反轉!尊界S800起售價或下探至80萬 比預期低20%

大反轉!尊界S800起售價或下探至80萬 比預期低20%

手機中國
2025-04-29 10:14:13
安妮·海瑟薇攜男友甜蜜亮相聚會:風衣短裙秀身材,氣質拉滿

安妮·海瑟薇攜男友甜蜜亮相聚會:風衣短裙秀身材,氣質拉滿

述家娛記
2025-04-30 14:58:01
大反轉!回族姑娘太美遭網暴,家人露面,網友:個個美若天仙

大反轉!回族姑娘太美遭網暴,家人露面,網友:個個美若天仙

娛樂看阿敞
2025-04-29 09:24:45
2025-05-02 01:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10436文章數 142300關注度
往期回顧 全部

科技要聞

DeepSeek新數學模型刷爆記錄

頭條要聞

日本急著跟特朗普簽協議:中國正抓緊機會說美有風險

頭條要聞

日本急著跟特朗普簽協議:中國正抓緊機會說美有風險

體育要聞

無敵17歲vs飛翔泥頭車,歐冠史詩對決

娛樂要聞

梅婷慶50歲生日,兒女和她一起許愿

財經要聞

知情人士:美方正多渠道主動與中方接觸

汽車要聞

預售32.98萬起 魏牌高山家族將于5月13日上市

態度原創

房產
游戲
數碼
公開課
軍事航空

房產要聞

火了!一二手房交易量大漲,五一購房窗口期來了!

業內人士評Switch2鑰匙卡:走向數字化不可避免

數碼要聞

官方網頁確認多個 AMD 處理器代號,Gorgon Point 含三種變體

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

解放軍儀仗隊首次應邀赴越南參加閱兵

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 敖汉旗| 龙泉市| 连州市| 黔西| 城固县| 静安区| 务川| 屯留县| 华安县| 遵义县| 望江县| 福安市| 陆丰市| 灵台县| 津南区| 涿州市| 响水县| 罗山县| 吉安市| 通化市| 三河市| 晋州市| 册亨县| 宾阳县| 四会市| 福鼎市| 内丘县| 贵定县| 五常市| 双柏县| 塘沽区| 如东县| 金秀| 石台县| 新闻| 安国市| 马尔康县| 固原市| 上栗县| 泸西县| 周宁县|