新智元報道
編輯:英智
【新智元導讀】研究揭示早融合架構在低計算預算下表現更優,訓練效率更高。混合專家(MoE)技術讓模型動態適應不同模態,顯著提升性能,堪稱多模態模型的秘密武器。
如今,打造強大的多模態模型是AI領域的重要目標。
一種常用方法是把單獨預訓練好的模型組合起來,比如把訓練好的視覺編碼器連接到LLM的輸入層,再進行多模態訓練。
然而,單模態預訓練可能會帶來一些偏差,影響模型對不同模態之間相互依賴關系的學習。
且每個單模態組件都有自己的超參數、預訓練數據和縮放屬性,給系統擴展增加了不少難度。
研究人員把希望寄托在了原生多模態模型(NMM)上,NMM是在所有模態上同時從頭開始訓練的。
這種全新的訓練方式能不能突破現有的困境,讓模型性能更上一層樓呢?
來自法國索邦大學、蘋果的研究人員開展了原生多模態Scaling Laws的研究,表明早融合優于后融合,多模態MoE好于密集模型。
論文鏈接:https://arxiv.org/abs/2504.07951
研究表明,后融合架構相較于不依賴圖像編碼器的早融合架構,并沒有固有優勢。
早融合架構在參數數量較少時,性能更強,訓練效率更高,部署起來也更容易。
引入混合專家(MoE)技術,能讓模型學到特定模態的權重,進而大幅提升性能。
研究成果總結如下:
原生早融合與后融合性能相當:從零開始訓練的早融合模型與后融合模型性能相當,在計算預算較低時,早融合模型略有優勢。
此外,Scaling Law研究表明,隨著計算預算的增加,早融合和后融合的計算最優模型性能相似(圖1-左)。
原生多模態模型(NMM)Scaling Law與LLM相似:原生多模態模型的擴展規律與純文本LLM相似,擴展指數因目標數據類型和訓練混合比例略有變化。
后融合需要更多參數:與早融合相比,計算最優的后融合模型需要更高的參數-數據比(圖1-右)。
稀疏性顯著提升早融合NMM性能:在相同推理成本下,稀疏NMM相較于密集模型有顯著改進。
此外,稀疏訓練的模型會隱式學習模態特定權重。
隨著計算預算增加,計算最優模型更依賴于增加訓練token數量,而非活躍參數數量(圖1-右)。
對于稀疏NMM,模態無關路由優于模態感知路由:在稀疏專家混合模型中,使用模態無關路由訓練的性能始終優于采用模態感知路由的模型。
原生多模態Scaling Law
為深入了解原生多模態模型的性能表現,研究人員引入了Scaling Law的概念。
通過計算模型的浮點運算次數(FLOPs)來衡量計算量的大小,并且假設模型最終的損失和模型的大小(用參數數量N來表示)以及訓練token的數量(D)之間存在一種冪律關系:
E代表在數據集上可達到的最低損失,表示增加模型參數數量對損失的影響,一般來說,模型參數越多,損失就會越低,α是控制這種變化速度的,體現了增加訓練token數量帶來的好處,β決定了其增長速度。
同時,研究人員還發現計算預算(FLOPs)和N、D之間存在線性關系。
早融合和后融合模型的Scaling Law。
圖2(左)呈現了早融合的NMM在多模態交織、圖像-描述以及文本這三類數據集上的平均最終損失。
可以看到,其最低損失的變化趨勢遵循著與浮點運算次數(FLOPs)相關的冪律關系。通過對這一規律進行擬合,得到表達式
反映出隨著計算量的增加,模型性能提升的速度。
在分析不同數據類型(如圖像字幕、交錯、文本)時,觀察到指數有所不同。
與交錯文檔相比,模型在圖像字幕數據上實現了更高的性能提升速率。
圖2(右)后融合模型中,觀察到損失Scaling指數與早融合幾乎相同。
研究人員采用了457個具有不同架構和訓練混合方式的訓練模型,模型的參數量從0.3B到4B。
他們還調整了訓練token的數量,同時改變訓練數據的混合方式,以此來全面探究各種因素對模型性能的影響。
研究人員采用了自回歸Transformer架構,搭配SwiGLU前饋網絡和QK-Norm技術,還使用了像bfloat16、全分片數據并行(FSDP)、激活檢查點和梯度累積等多種優化方法,讓訓練更高效。
早融合優勢盡顯
在低計算預算(模型規模較小)的情況下,早融合模型略勝一籌。
隨著計算預算的增加,雖然兩種模型的性能逐漸接近,但早融合模型在訓練效率上具有明顯優勢。
對比NMM和僅基于文本的LLM(如GPT-3、Chinchilla)的Scaling Law系數,會發現它們處于相似范圍。
早融合與后融合NMM的計算最優權衡。雖然后融合和早融合模型隨著FLOPs增加,損失降低的速度相近。
在縮放FLOPs時,早融合模型的參數數量明顯更少,這對降低推理成本很關鍵,部署后也能降低服務成本。
在計算資源相同的情況下,早融合模型不僅占用的內存更少,訓練速度也更快。
當計算量增大時,這種優勢愈發顯著。這說明早融合在保持相當的大規模訓練時性能時,還具備超高的訓練效率。
值得注意,在相同的FLOPs下,與早融合模型相比,后融合模型具有更高的參數量和有效深度。
不同數據混合的Scaling Law
圖4表明不同的數據混合方式在模型訓練中呈現出相似的縮放趨勢,不過它們的縮放系數存在差異(表4)。
有趣的是,增加圖像字幕數據的比例(混合方式1和2)會導致a值降低和b值升高,而增加交錯和文本數據的比例(混合方式3和4)會產生相反的效果。
圖像說明數據中,圖像token占比高于文本token。因此,提高圖像說明數據的比例會增加圖像token數量,而增加多模態交織數據或文本數據的比例則會提升文本token數量。
這表明,當圖像token占主導時,訓練時間越長,損失下降越快,增加模型規模會進一步加速這一過程。
對于固定的模型大小,增加純文本和交錯數據的比例有利于早融合模型。
原生多模態預訓練與LLM的持續訓練
對比兩種訓練方式:一種是從頭開始進行原生訓練,另一種是先用預訓練的LLM進行初始化,再持續訓練。
實驗用的初始模型是DCLM-1B,它在超過2T個token的數據上完成了訓練。
隨著訓練時間的延長,NMM和經過初始化的模型之間的差距會逐漸縮小。
具體來說,在圖像字幕數據上,模型需要不到100B個多模態token就能達到可比的性能。
然而,在交錯和文本數據上,模型可能需要更長的訓練時間(多達1T token)。
考慮到預訓練的成本,為了實現相同的性能,原生多模態訓練可能是更有效的方法。
多模態專業化:MoE的妙用
早融合模型在很多方面表現出色,但多模態數據的異構性仍然是一個挑戰。
為了讓模型更好地處理這種異構數據,研究人員引入了專家混合(MoE)技術。
MoE技術允許模型在不同模態之間動態分配專門的參數,以更好地適應多模態數據的特點。
實驗結果顯示,在相同推理成本下,MoE模型的表現明顯好于密集模型,尤其是在模型較小時,優勢更為明顯。
這說明MoE架構在處理異構數據時更高效,還能針對不同模態進行專門處理。
為了驗證前面通過驗證損失得到的結論在實際應用中的有效性,研究人員在下游任務上進行了評估。
他們在LLaVA混合數據上進行了多模態指令調整階段(SFT),并在多個視覺問答(VQA)和圖像字幕任務中測試了模型的性能。
結果再次證實了之前的發現:早融合模型優于后融合模型,采用MoE的模型優于密集模型。
不過,由于實驗中的模型相對較小(1.5B),并且是從頭開始訓練并在小數據集上微調,總體分數與當前最先進的模型還有一定差距。
但這也為后續的研究指明了方向,即通過進一步優化模型規模、訓練數據和微調策略,有望提升模型在實際任務中的表現。
參考資料:
https://www.alphaxiv.org/overview/2504.07951
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.