作為大模型領域首個融合圖神經網絡(GNN)的MoE優化框架,北郵百家AI團隊為專家系統搭建「MoE協作網絡」:每個專家節點不再孤立決策,而是通過動態語義感知與跨專家信息交互,通過基于圖路由的群智決策,和獨創的「正態負載均衡+泊松能力區分」雙策略,讓每個專家的獨特能力充分釋放,破局大模型訓練的資源困局:少數專家「滿負荷運轉」,多數專家「資源閑置」,大模型訓練穩定性提升40%+,助力大模型釋放潛能!
論文標題: GMoE: Empowering LLMs Fine-Tuning via MoE Graph Collaboration 論文鏈接: https://arxiv.org/abs/2412.16216 代碼倉庫: https://github.com/BAI-LAB/GMoE一、引言
近年來,大語言模型(LLMs)的參數高效微調技術成為研究熱點,其中混合專家模型(MoE)因其強大的擴展能力備受關注。然而,傳統MoE架構采用簡單的路由策略,導致專家負載嚴重失衡——少數專家被過度訓練,而其他專家長期閑置。這種「冷熱不均」的問題不僅限制模型性能潛力,還會引發訓練不穩定性。
北郵百家AI團隊首次將圖神經網絡(GNN)引入MoE路由機制,提出GMoE大模型微調框架。通過構建MoE協作網絡,專家節點可動態感知輸入語義并與其他專家交換信息,實現多專家群智決策;同時,我們創新性地設計正態分布負載均衡策略與泊松分布區分策略,讓每個專家發揮獨特能力的同時,保持專家整體負載均衡。
具體地,我們采用參數高效微調(Parameter-Efficient Fine-Tuning, PEFT)方案,通過LoRA微調稀疏激活部分專家模塊,顯著降低了大型語言模型(LLMs)的微調計算成本。其核心機制可概括為:
泊松能力區分:專家因泊松策略在不同任務子集形成專屬優勢,減少對同一任務的集中競爭,從源頭降低負載失衡風險;
正態負載均衡:正態策略防止優勢專家被過度消耗,為泊松策略下的「冷門專家」保留足夠訓練機會,避免其因長期閑置導致能力退化;
圖路由決策:通過GNN 協作圖路由機制(Graph Router),專家在感知輸入語義時,既依據泊松能力判斷是否擅長處理,又通過正態負載信號感知系統狀態,動態調整路由策略,實現「按需響應、負載分流」智能協作。
GMoE 摒棄了傳統 MoE 中依賴簡單 MLP 層作為路由模塊的設計,轉而構建基于圖神經網絡的「圖路由(Graph Router)」機制,通過專家協作圖實現更智能的激活決策。該協作圖由 N 個專家節點與輸入 token 節點共同構成:每個輸入 token 節點作為語義載體,與專家節點通過邊連接形成交互網絡;專家節點則在圖路由的信息傳遞過程中,動態聚合輸入語義特征與其他專家的狀態信息。經過 GNN 的多層消息傳遞后,每個專家節點的特征向量通過線性投影層生成激活權重,最終由圖路由機制綜合判定各專家的參與度 。這種設計讓路由決策不再基于局部語義匹配,而是通過圖結構建模專家間的協作關系與全局負載狀態,實現從「單層映射」到「圖智決策」的范式升級。
GMoE 架構圖 2.2 正態分布負載均衡策略
GMoE使用基于正態分布的負載均衡損失函數,這種損失函數具有更自然、均衡的損失目標。GMoE以當前專家激活的概率分布與正態分布之間的KL散度作為損失函數,對專家的激活概率進行限制。具體的損失函數可以由以下表達式描述:
2.3 泊松分布區分策略
針對不同輸入,GMoE 通過路由模塊為專家賦予差異化權重 —— 讓擅長特定語義的專家權重凸顯,避免所有專家權重趨同,實現「輸入 - 專家」的精準能力匹配。我們將專家權重分配向量與一個泊松分布利用KL散度對齊。具體的損失函數可以由以下表達式描述:
三、實驗 3.1性能&穩定性分析
我們在四個公開數據集進行訓練與測試:ARC-Easy,ARC-Challenge, OpenBookQA, SIQA。我們在三個基座模型上實現了GMoE,并與多個同類型工作進行了系統性的比較,實驗結果表明,GMoE在準確性和穩定性上超過了現有的MoE模型。
3.2 參數量&吞吐量分析
GMoE在正確率最高的情況下,還做到了可訓練參數量的大幅降低,并且推理延遲的增加也很微小。
3.3 消融實驗
GMoE協作網絡的核心價值:多專家協作網絡并非獨立組件的簡單疊加,而是通過 GNN 構建的動態交互機制,使專家從「孤立決策」升級為「協同推理」,其帶來的「語義互補性」與「負載自調節」效應,是 GMoE 實現性能突破的核心驅動力。
四、結論
GMoE 的核心價值不僅在于單點技術改進,更通過「架構創新 + 損失函數設計」的協同效應,為 MoE 家族提供了可復用的優化框架。其提出的圖路由機制與雙分布策略,既保留了專家模型的專業化優勢,又從系統層面解決了負載失衡與能力同質化的固有矛盾,為大語言模型高效微調開辟了一條兼具理論嚴謹性與工程可行性的新路徑。
來源: 公眾號【百家Agent】
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.