近日,西北農林科技大學信息工程學院智能計算與農業信息系統團隊劉斌教授攜其課題組在國際計算機體系結構領域權威期刊《IEEE Transactions on Computers》(TC,CCF A類期刊)上發表題為“GroPipe: A Grouped Pipeline Hybrid Parallel Method for Accelerating DCNNs Training”的研究論文。
這一成果的發表標志著西北農林科技大學在計算機體系結構領域的A類國際頂級學術期刊——《IEEE Transactions on Computers》(創刊于1952年)上實現了歷史性突破。作為全球公認的重磅期刊,該刊以極其嚴苛的多輪國際同行評審機制著稱,堪稱學術界對“創新與嚴謹”最高標準的權威檢驗。本論文入選,不僅彰顯了我校在AI大模型并行訓練領域的雄厚實力,更意味著西北農林科技大學科研成果已獲得國際學術界的高度肯定,為深度學習大規模訓練框架的未來發展注入了強勁動力。
該論文由西北農林科技大學攜手美國紐約州立大學和云南大學聯合發表。西北農林科技大學信息工程學院劉斌教授擔任第一作者,紀澤宇老師與云南大學何臻力副教授共同擔任通訊作者,紐約州立大學李克勤教授(歐洲科學院院士,并行與分布式計算領域公認的頂尖學者,國家特聘教授)作為重要合作者,使本次研究成果更具國際影響力。論文針對當前大規模深度卷積神經網絡(DCNN)大模型訓練中負載不均衡和高通信開銷的難題,提出了一種創新的混合并行訓練方法——GroPipe。該方法首次將流水線模型并行與數據并行相融合,構建“組內流水線+組間數據并行”的分層訓練架構,并通過自動模型劃分算法(AMPA)實現計算負載的動態均衡調度,大幅提升GPU資源利用率。為了進一步降低數據并行同步通信代價,GroPipe在反向傳播階段引入“基于分組的延遲異步通信”策略,延遲梯度同步操作,有效減輕全局通信帶寬壓力,顯著提升訓練吞吐量。實驗證明,在ImageNet數據集上,GroPipe方法相較于主流方案(如DP、Torchgpipe、DAPPLE和DeepSpeed)表現出卓越優勢:ResNet系列平均加速比達42.2%,VGG系列達79.2%;在BERT-base模型訓練中,性能提升最高可達51%。該成果展示了GroPipe在圖像與文本領域的廣泛適用性。
GroPipe方法整體框架圖
近年來,劉斌教授課題組專注于AI大模型并行訓練與高性能計算架構的前沿研究,圍繞“高效、可擴展、低開銷”三大核心目標,取得了一系列突破性成果。團隊的創新實踐和系統化設計,大幅提升了大模型訓練性能,彰顯了西北農林科技大學在AI大模型加速訓練領域的科研實力與國際學術影響力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.