99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

蘋果提出原生多模態Scaling Law!早融合+MoE,性能飆升秘密武器

0
分享至


新智元報道

編輯:英智

【新智元導讀】研究揭示早融合架構在低計算預算下表現更優,訓練效率更高。混合專家(MoE)技術讓模型動態適應不同模態,顯著提升性能,堪稱多模態模型的秘密武器。

如今,打造強大的多模態模型是AI領域的重要目標。

一種常用方法是把單獨預訓練好的模型組合起來,比如把訓練好的視覺編碼器連接到LLM的輸入層,再進行多模態訓練。

然而,單模態預訓練可能會帶來一些偏差,影響模型對不同模態之間相互依賴關系的學習。

且每個單模態組件都有自己的超參數、預訓練數據和縮放屬性,給系統擴展增加了不少難度。

研究人員把希望寄托在了原生多模態模型(NMM)上,NMM是在所有模態上同時從頭開始訓練的。

這種全新的訓練方式能不能突破現有的困境,讓模型性能更上一層樓呢?

來自法國索邦大學、蘋果的研究人員開展了原生多模態Scaling Laws的研究,表明早融合優于后融合,多模態MoE好于密集模型。


論文鏈接:https://arxiv.org/abs/2504.07951

研究表明,后融合架構相較于不依賴圖像編碼器的早融合架構,并沒有固有優勢。

早融合架構在參數數量較少時,性能更強,訓練效率更高,部署起來也更容易。

引入混合專家(MoE)技術,能讓模型學到特定模態的權重,進而大幅提升性能。

研究成果總結如下:

原生早融合與后融合性能相當:從零開始訓練的早融合模型與后融合模型性能相當,在計算預算較低時,早融合模型略有優勢。


此外,Scaling Law研究表明,隨著計算預算的增加,早融合和后融合的計算最優模型性能相似(圖1-左)。


原生多模態模型(NMM)Scaling Law與LLM相似:原生多模態模型的擴展規律與純文本LLM相似,擴展指數因目標數據類型和訓練混合比例略有變化。


后融合需要更多參數:與早融合相比,計算最優的后融合模型需要更高的參數-數據比(圖1-右)。

稀疏性顯著提升早融合NMM性能:在相同推理成本下,稀疏NMM相較于密集模型有顯著改進。


此外,稀疏訓練的模型會隱式學習模態特定權重。

隨著計算預算增加,計算最優模型更依賴于增加訓練token數量,而非活躍參數數量(圖1-右)。

對于稀疏NMM,模態無關路由優于模態感知路由:在稀疏專家混合模型中,使用模態無關路由訓練的性能始終優于采用模態感知路由的模型。


原生多模態Scaling Law

為深入了解原生多模態模型的性能表現,研究人員引入了Scaling Law的概念。

通過計算模型的浮點運算次數(FLOPs)來衡量計算量的大小,并且假設模型最終的損失和模型的大小(用參數數量N來表示)以及訓練token的數量(D)之間存在一種冪律關系:

E代表在數據集上可達到的最低損失,表示增加模型參數數量對損失的影響,一般來說,模型參數越多,損失就會越低,α是控制這種變化速度的,體現了增加訓練token數量帶來的好處,β決定了其增長速度。

同時,研究人員還發現計算預算(FLOPs)和N、D之間存在線性關系。

早融合和后融合模型的Scaling Law。

圖2(左)呈現了早融合的NMM在多模態交織、圖像-描述以及文本這三類數據集上的平均最終損失。


可以看到,其最低損失的變化趨勢遵循著與浮點運算次數(FLOPs)相關的冪律關系。通過對這一規律進行擬合,得到表達式

反映出隨著計算量的增加,模型性能提升的速度。

在分析不同數據類型(如圖像字幕、交錯、文本)時,觀察到指數有所不同。


與交錯文檔相比,模型在圖像字幕數據上實現了更高的性能提升速率。

圖2(右)后融合模型中,觀察到損失Scaling指數與早融合幾乎相同。

研究人員采用了457個具有不同架構和訓練混合方式的訓練模型,模型的參數量從0.3B到4B。

他們還調整了訓練token的數量,同時改變訓練數據的混合方式,以此來全面探究各種因素對模型性能的影響。

研究人員采用了自回歸Transformer架構,搭配SwiGLU前饋網絡和QK-Norm技術,還使用了像bfloat16、全分片數據并行(FSDP)、激活檢查點和梯度累積等多種優化方法,讓訓練更高效。

早融合優勢盡顯

在低計算預算(模型規模較小)的情況下,早融合模型略勝一籌。

隨著計算預算的增加,雖然兩種模型的性能逐漸接近,但早融合模型在訓練效率上具有明顯優勢。


對比NMM和僅基于文本的LLM(如GPT-3、Chinchilla)的Scaling Law系數,會發現它們處于相似范圍。

早融合與后融合NMM的計算最優權衡。雖然后融合和早融合模型隨著FLOPs增加,損失降低的速度相近。

在縮放FLOPs時,早融合模型的參數數量明顯更少,這對降低推理成本很關鍵,部署后也能降低服務成本。

在計算資源相同的情況下,早融合模型不僅占用的內存更少,訓練速度也更快。

當計算量增大時,這種優勢愈發顯著。這說明早融合在保持相當的大規模訓練時性能時,還具備超高的訓練效率。


值得注意,在相同的FLOPs下,與早融合模型相比,后融合模型具有更高的參數量和有效深度。

不同數據混合的Scaling Law

圖4表明不同的數據混合方式在模型訓練中呈現出相似的縮放趨勢,不過它們的縮放系數存在差異(表4)。



有趣的是,增加圖像字幕數據的比例(混合方式1和2)會導致a值降低和b值升高,而增加交錯和文本數據的比例(混合方式3和4)會產生相反的效果。

圖像說明數據中,圖像token占比高于文本token。因此,提高圖像說明數據的比例會增加圖像token數量,而增加多模態交織數據或文本數據的比例則會提升文本token數量。

這表明,當圖像token占主導時,訓練時間越長,損失下降越快,增加模型規模會進一步加速這一過程。

對于固定的模型大小,增加純文本和交錯數據的比例有利于早融合模型。


原生多模態預訓練與LLM的持續訓練

對比兩種訓練方式:一種是從頭開始進行原生訓練,另一種是先用預訓練的LLM進行初始化,再持續訓練。

實驗用的初始模型是DCLM-1B,它在超過2T個token的數據上完成了訓練。

隨著訓練時間的延長,NMM和經過初始化的模型之間的差距會逐漸縮小。


具體來說,在圖像字幕數據上,模型需要不到100B個多模態token就能達到可比的性能。

然而,在交錯和文本數據上,模型可能需要更長的訓練時間(多達1T token)。

考慮到預訓練的成本,為了實現相同的性能,原生多模態訓練可能是更有效的方法。

多模態專業化:MoE的妙用

早融合模型在很多方面表現出色,但多模態數據的異構性仍然是一個挑戰。

為了讓模型更好地處理這種異構數據,研究人員引入了專家混合(MoE)技術。

MoE技術允許模型在不同模態之間動態分配專門的參數,以更好地適應多模態數據的特點。

實驗結果顯示,在相同推理成本下,MoE模型的表現明顯好于密集模型,尤其是在模型較小時,優勢更為明顯。

這說明MoE架構在處理異構數據時更高效,還能針對不同模態進行專門處理。


為了驗證前面通過驗證損失得到的結論在實際應用中的有效性,研究人員在下游任務上進行了評估。

他們在LLaVA混合數據上進行了多模態指令調整階段(SFT),并在多個視覺問答(VQA)和圖像字幕任務中測試了模型的性能。


結果再次證實了之前的發現:早融合模型優于后融合模型,采用MoE的模型優于密集模型

不過,由于實驗中的模型相對較小(1.5B),并且是從頭開始訓練并在小數據集上微調,總體分數與當前最先進的模型還有一定差距。

但這也為后續的研究指明了方向,即通過進一步優化模型規模、訓練數據和微調策略,有望提升模型在實際任務中的表現。

參考資料:

https://www.alphaxiv.org/overview/2504.07951

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“彈頭很大,威力很強”,胡塞武裝高超音速導彈襲以色列機場,以防長誓言“加倍報復”

“彈頭很大,威力很強”,胡塞武裝高超音速導彈襲以色列機場,以防長誓言“加倍報復”

都市快報橙柿互動
2025-05-04 18:00:48
連續10年財務造假,曾經是“第四大運營商”,如今慘烈退市

連續10年財務造假,曾經是“第四大運營商”,如今慘烈退市

八百者也
2025-05-05 13:56:17
你都發生過哪些小概率事件?網友分享一個比一個離譜!看得目瞪口呆

你都發生過哪些小概率事件?網友分享一個比一個離譜!看得目瞪口呆

熱鬧的河馬
2025-01-02 17:35:17
女碩士送外賣后續!網友:沒有好父母,碩士畢業也找不到好工作

女碩士送外賣后續!網友:沒有好父母,碩士畢業也找不到好工作

小人物看盡人間百態
2025-05-04 20:04:23
新的收獲,金玟哉已經在三個國家奪得頂級聯賽冠軍

新的收獲,金玟哉已經在三個國家奪得頂級聯賽冠軍

懂球帝
2025-05-05 02:22:13
加州州長公開發聲“我們不是美國”!特朗普又退一步,簽下新政策

加州州長公開發聲“我們不是美國”!特朗普又退一步,簽下新政策

艾米手工作品
2025-05-05 16:39:31
你發現沒
?張柏芝哪哪兒都好,就是有一個缺點可能永遠也改不了

你發現沒 ?張柏芝哪哪兒都好,就是有一個缺點可能永遠也改不了

如安青何
2025-05-01 01:40:24
第2階段4-5!趙心童鞏固優勢,1數據預示登頂,90后世錦賽3連莊?

第2階段4-5!趙心童鞏固優勢,1數據預示登頂,90后世錦賽3連莊?

劉姚堯的文字城堡
2025-05-05 05:31:49
官方:阿諾德將于賽季結束后離開利物浦

官方:阿諾德將于賽季結束后離開利物浦

懂球帝
2025-05-05 17:29:32
24+9,他比格林強太多了,名記:若練出三分聯盟將大結局

24+9,他比格林強太多了,名記:若練出三分聯盟將大結局

體育新角度
2025-05-05 16:00:14
1-34!奪冠的凱恩看哭了!

1-34!奪冠的凱恩看哭了!

冷桂零落
2025-05-05 12:34:16
美國財長這下著急了!最新消息,temu公司宣布停止所有從中國到美國的直運

美國財長這下著急了!最新消息,temu公司宣布停止所有從中國到美國的直運

華山穹劍
2025-05-04 20:27:20
還留著嗎?杰倫格林搶七豪取8+4+1 連垮5場+場均9分 去換字母哥?

還留著嗎?杰倫格林搶七豪取8+4+1 連垮5場+場均9分 去換字母哥?

狍子歪解體壇
2025-05-05 11:08:26
曹云金帶前妻女兒現身游樂場,胖了20斤臉很圓,5歲女兒特別好看

曹云金帶前妻女兒現身游樂場,胖了20斤臉很圓,5歲女兒特別好看

泠泠說史
2025-05-04 17:51:11
假期云南反腐不停!李剡兵落馬

假期云南反腐不停!李剡兵落馬

看看新聞Knews
2025-05-05 15:17:58
張雪峰:如果你不好好學習,一旦掉入社會底層,和一幫沒有素質的人混在一起...

張雪峰:如果你不好好學習,一旦掉入社會底層,和一幫沒有素質的人混在一起...

譚老師地理工作室
2025-04-15 19:30:45
中美貿易戰再起波瀾?5月5日,今日凌晨的三大重要消息全面襲來!

中美貿易戰再起波瀾?5月5日,今日凌晨的三大重要消息全面襲來!

風口招財豬
2025-05-05 02:08:50
汪小菲妻子海量不雅照曝光,穿著大膽疑整容,父母真實職業曝光

汪小菲妻子海量不雅照曝光,穿著大膽疑整容,父母真實職業曝光

古希臘掌管月桂的神
2025-05-04 10:02:38
用手感知0.01毫米的區別 他比機器還“精”

用手感知0.01毫米的區別 他比機器還“精”

北青網-北京青年報
2025-05-02 15:59:10
“做愛,千萬不要太快。”

“做愛,千萬不要太快。”

書畫藝術收藏
2024-10-26 19:30:03
2025-05-05 17:52:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12649文章數 66026關注度
往期回顧 全部

科技要聞

這3款新 iPhone,可能會改變蘋果的未來

頭條要聞

特朗普突然就對華關稅發聲 承認對中國"非常強硬"

頭條要聞

特朗普突然就對華關稅發聲 承認對中國"非常強硬"

體育要聞

當年的阿森納小球童,要踢歐冠決賽了

娛樂要聞

馬麗崩潰哭訴上熱搜,評論區罵聲一片

財經要聞

人民幣暴漲近900點!發生了什么?

汽車要聞

小米SU7的真實續航到底有多少?

態度原創

藝術
健康
教育
親子
房產

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎?

教育要聞

鄭州高三女孩申請到劍橋大學,學霸分享學習心得!

親子要聞

閨女也太厲害了吧

房產要聞

最強書包官宣落位!海口這個片區,將徹底引爆!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 泰来县| 巴楚县| 扎兰屯市| 家居| 明溪县| 和硕县| 宜城市| 东兴市| 贵南县| 仪征市| 嘉祥县| 清涧县| 澎湖县| 邓州市| 通江县| 紫阳县| 格尔木市| 汕头市| 简阳市| 怀集县| 三门峡市| 定日县| 安康市| 蓬安县| 凭祥市| 郁南县| 阜阳市| 兴宁市| 庆安县| 永安市| 页游| 普洱| 芒康县| 蒲江县| 慈利县| 济南市| 灌南县| 九台市| 阳原县| 香格里拉县| 北宁市|