摘要
構建能夠通過多模態信號有效感知世界的通用模型一直是長期目標。當前的方法包括將單獨預訓練的組件進行整合,例如將視覺編碼器連接到大型語言模型(LLMs)并繼續進行多模態訓練。盡管此類方法表現出顯著的樣本效率,但是否這種后期融合架構本質上更優越仍是一個懸而未決的問題。在本研究中,我們重新審視了原生多模態模型(native multimodal models)的架構設計——即從一開始就對所有模態進行訓練的模型,并進行了廣泛的規模縮放研究,涵蓋了 457 個具有不同架構和訓練混合比例的訓練模型。我們的研究發現,后期融合架構并不比早期融合架構具有固有的優勢,后者不依賴于圖像編碼器。相反,早期融合在參數數量較少的情況下表現出更強的性能,訓練效率更高,也更易于部署。受早期融合架構出色性能的啟發,我們表明引入專家混合(MoEs)能夠使模型學習模態特定權重,從而顯著提升性能。
關鍵詞:標度律(Scaling Laws),原生多模態模型(Native Multimodal Models, NMMs),早期融合(Early Fusion),晚期融合(Late Fusion),混合專家(Mixture of Experts, MoEs)
論文題目:Scaling Laws for Native Multimodal Models 發表時間:2025年4月11日 論文地址:https://arxiv.org/abs/2504.07951
近年來,多模態模型(Multimodal Models)因能同時處理圖像、文本、語音等信號而成為研究熱點。主流方法通常將預訓練的單模態組件(如視覺編碼器與語言模型)拼接為“晚期融合”(Late Fusion)架構,但其依賴獨立模塊的設計可能引入模態偏差,且難以動態分配算力。蘋果公司與索邦大學的研究團隊在最新研究中另辟蹊徑,通過訓練457個不同架構的原生多模態模型(NMMs),首次系統性揭示了多模態模型的標度律,挑戰了傳統認知。
重新審視早、晚期融合架構
傳統晚期融合模型(如CLIP架構)需先通過視覺編碼器處理圖像,再將特征輸入語言模型。而早期融合架構(Early Fusion)直接將原始圖像塊與文本統一輸入單一Transformer,幾乎不依賴模態專屬參數。
研究團隊發現:在相同計算預算下,兩種架構的驗證損失(Validation Loss)近乎一致,但早期融合在小規模模型(<3B參數)中表現更優(圖1)。例如,1.6B參數的早期融合模型在圖像描述任務上的損失比同規模晚期融合低3.2%,且訓練速度提升15%(圖2),說明早期融合具備更優的硬件親和性與部署便捷性,無需維護多模塊的兼容性。
圖 1. 原生多模態模型的標度特性。 根據第3.1節的標度律研究,我們觀察到:(1) 在相同計算預算 C(以FLOPs為單位)下訓練時,早期融合和晚期融合模型提供的驗證損失 L 表現相當;(2) 這種性能表現是通過參數數量 N 和訓練標記數量 D 的不同權衡實現的,其中早期融合模型需要更少的參數;(3) 稀疏早期融合模型在給定FLOP預算下能獲得更低的損失,但需要更多的訓練標記。
圖 2. 早期 vs 晚期:預訓練效率。早期融合訓練起來更快,消耗的內存也更少。
多模態模型的標度律:與LLM的相似之處
通過擬合模型參數(N)、訓練數據量(D)與計算量(C)的關系,研究團隊發現NMMs的標度率與純文本大模型(LLM)高度相似:驗證損失隨計算量呈冪律下降(L ∝ C?0.049)。例如,模型參數量每增加10倍,損失降低約18%。值得注意的是,不同模態數據的標度系數存在差異:圖像描述任務(L ∝ C?0.061)的優化速度顯著快于文本任務(L ∝ C?0.042),這可能因視覺信號的信息密度更高(表 1)。
表 1. 原生多模態模型的標度律。我們報告了早期和晚期混合模型的標度定律結果。我們擬合了不同目標數據類型及其平均損失(AVG)的標度律。
稀疏模型與混合專家(MoE)的突破性優勢
為應對多模態數據的異質性,研究團隊在早期融合中引入混合專家機制(MoE),允許模型動態分配專家網絡處理不同模態。結果顯示,MoE模型在相同推理成本下,性能顯著超越密集模型(圖3)。例如,1.6B參數的稀疏模型在圖像描述任務上的損失比同規模密集模型低9.5%。
進一步分析發現,MoE的專家層呈現出明確的模態專業化:淺層和深層專家傾向處理單一模態,而中間層專家則負責跨模態融合(圖4)。有趣的是,模態無關路由(Modality-Agnostic Routing)的表現優于人工預設的模態專屬路由,說明模型能自主學習最優參數分配策略。
圖 3. MoE vs Dense:標度訓練flop。在標度訓練tokens數量和模型大小時,我們比較了MoE和密集早期融合模型。MoEs在匹配活動參數數量時優于密集模型。
圖 4. MoE專業化頻率(specialization frequency)。
實踐啟示與未來方向
研究表明,早期融合架構在大多數場景下是更優選擇,尤其在資源受限時優勢顯著。此外,數據混合比例對擴展規律影響微弱,這意味著開發者可靈活調整數據配比。不過,研究仍存在局限,實驗限于圖像-文本雙模態,未探索更高分辨率輸入對早期融合的影響。未來工作或將驗證這些定律在視頻、音頻等復雜模態中的普適性。這一突破為多模態模型的架構設計與訓練策略提供了全新視角,或推動更高效、輕量的通用AI系統誕生。
彭晨| 編譯
「人機協同的智能時代」讀書會
集智俱樂部聯合中國科學技術大學教授趙云波、華東師范大學副教授吳興蛟兩位老師共同發起。本次讀書會將探討:
人類智能和機器智能各自的優勢有哪些?智能邊界如何?如何通過更有效的標注策略和數據生成技術來解決數據稀缺問題?如何設計更加高效的人機協作系統,實現高效共贏的效果?如何提高機器決策的可解釋性與透明性,確保系統的可信度?如何通過多模態協作融合不同感知通道,應對復雜的決策任務?
讀書會計劃從6月21日開始,每周六晚19:00-21:00進行,預計持續約8周。誠摯邀請領域內研究者、尋求跨領域融合的研究者加入,共同探討。
詳情請見:
1.
2.
3.
4.
5.
6.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.