近年來隨著大語言模型的爆火,旨在取代 Transformer 的高效模型架構及其預訓練成為大模型領域的研究熱點,主要包括線性序列建模(如 Linear Attention、SSM、Linear RNN 等)和混合專家(Mixture-of-Experts, MoE)兩部分。這兩部分分別都有了長足的進步,但兩者的結合卻鮮少有人研究,兩者結合后的 Linear-MoE 架構開源實現更是完全缺失。
值得一提的是,近期廣受好評的 MiniMax-01 模型(使用 Lightning Attention-MoE)和騰訊混元 TurboS 模型(使用 Mamba2-MoE)均屬于 Linear-MoE 架構。
來自上海人工智能實驗室團隊的最新成果 Linear-MoE,首次系統性地實現了線性序列建模與 MoE 的高效結合,并開源了完整的技術框架,包括 Modeling 和 Training 兩大部分,并支持層間混合架構。為下一代基礎模型架構的研發提供了有價值的工具和經驗。
- 論文標題:Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts
- 論文地址:https://arxiv.org/abs/2503.05447
- 項目地址:https://github.com/OpenSparseLLMs/Linear-MoE
線性序列建模的崛起
過去兩年,線性序列建模技術取得了顯著進展,其核心優勢在于線性時間復雜度的訓練和恒定內存占用的推理。
這類模型主要分為三大類:線性注意力(Linear Attention)、狀態空間模型(SSM)和線性 RNN(Linear RNN),代表性工作包括 Lightning Attention、GLA、Mamba2、RWKV等。
已有研究工作表明,這些模型實際上可以通過統一的遞歸形式進行表達,如下表所示。這也反映出,盡管三類方法分別出自不同的技術流派,但已逐漸收斂至統一的表達形式。
混合專家 MoE 成為事實標準
另外一方面,從國際上的 GPT-4 系列、Gemini 系列、Claude 系列到國內的 DeepSeek 系列、Qwen 系列、騰訊混元 LLM、字節豆包、MiniMax-01、Moonshot-Kimi 等,都在步伐一致地 All in MoE。其重要性不言而喻,本文不做過多展開。
Linear-MoE:模型架構與高效訓練
Linear-MoE 的核心貢獻在于構建了一個從 Modeling 到 Training 的完整系統,支持線性序列建模層與 MoE 層的靈活組合,同時兼容傳統的 Softmax Attention Transformer 層,支持形成混合架構。其設計亮點包括:
- 模塊化架構:
- LSM 層(線性序列建模層):支持各類線性序列建模方法(如 Lightning Attention、Gated-DeltaNet、Mamba2 等)。
- MoE 層:集成多種 MoE 實現(如 Qwen-MoE、DeepSeek-MoE、Mixtral-MoE),以及一種 Dense 實現(Llama3)。
- 高效訓練技術:
- 基于 Megatron-Core 框架開發,確保系統穩定性和可擴展性。
- 支持張量并行、流水線并行、專家并行、LASP(線性注意力序列并行)和MegaBlocks等優化技術,顯著提升訓練效率。
實驗驗證
大規模實驗驗證了 Linear-MoE 的優越性:
- 訓練穩定:混合模型(線性 + Softmax Attention)比純線性模型表現出更穩定的訓練曲線。
- 訓練效率:借助專家并行和 MegaBlocks,系統在超大參數規模下仍保持高吞吐量。
- 推理優勢:線性模型的推理速度比傳統架構快 2-5 倍,內存占用降低 50% 以上。
- 性能擴展:在不同規模的基準測試中,Linear-MoE 展現出良好的性能線性增長。
開源生態與未來展望
目前 Linear-MoE 已全面開源,支持多種主流的線性序列建模方法和 MoE 實現。這一工作不僅填補了線性建模與 MoE 結合的技術空白,還為社區提供了可復現的高效訓練方案。未來將進一步探索 Linear-MoE 在長上下文理解、Vision-Language 模型架構中的應用潛力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.