浪潮信息與5月28日重磅發布“源2.0-M32”開源大模型,旨在追求更高效的智能涌現。該模型在繼承了“源2.0”系列成果的基礎上,前瞻性引入了“基于注意力機制的門控網絡”技術,構建包含32個專家(Expert)的混合專家模型(MoE),并大幅提升了模型算力效率,模型運行時激活參數為37億,在業界主流基準評測中,性能媲美700億參數的LLaMA3開源大模型。
在傳統的MoE模型中,盡管通過多個專家模型的協同工作提升了模型的泛化能力,但它們在專家調度策略上存在局限。特別是在選擇兩個或多個專家參與計算時,傳統門控網絡往往忽略了專家之間的協同性,導致模型精度和效率受限。
源2.0-M32提出并采用了一種新型的算法結構:基于注意力機制的門控網絡(Attention Router),針對MoE模型核心的專家調度策略,這種新的算法結構關注專家模型之間的協同性度量,有效解決傳統門控網絡下,選擇兩個或多個專家參與計算時關聯性缺失的問題,使得專家之間協同處理數據的水平大為提升。此外,源2.0-M32采用源2.0-2B為基礎模型,沿用并融合局部過濾增強的注意力機制(LFA, Localized Filtering-based Attention),通過先學習相鄰詞之間的關聯性,然后再計算全局關聯性的方法,能夠更好地學習到自然語言的局部和全局的語言特征,對于自然語言的關聯語義理解更準確,進而提升了模型精度。
在數據層面,源2.0-M32基于2萬億的token進行訓練、覆蓋萬億量級的代碼、中英文書籍、百科、論文及合成數據。大幅擴展代碼數據占比至47.5%,從6類最流行的代碼擴充至619類,并通過對代碼中英文注釋的翻譯,將中文代碼數據量增大至1800億token。
在算力層面,源2.0-M32采用了流水并行的方法,綜合運用流水線并行+數據并行的策略,顯著降低了大模型對芯片間P2P帶寬的需求,為硬件差異較大的訓練環境提供了一種高性能的訓練方法。
在大模型的發展進程中,浪潮信息始終未曾停止上下求索的步伐。未來,浪潮信息將持續致力于算法和模型架構的創新與優化,不斷降低模型在預訓練、微調和推理等核心應用場景中的算力門檻,并通過精心設計模型和優化訓練流程,提升模型的運算效率,推動產業智能化的快速發展,讓大模型深度賦能千行百業。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.