99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

原生多模態模型的標度律:重新思考架構選擇與訓練效率

0
分享至


摘要

構建能夠通過多模態信號有效感知世界的通用模型一直是長期目標。當前的方法包括將單獨預訓練的組件進行整合,例如將視覺編碼器連接到大型語言模型(LLMs)并繼續進行多模態訓練。盡管此類方法表現出顯著的樣本效率,但是否這種后期融合架構本質上更優越仍是一個懸而未決的問題。在本研究中,我們重新審視了原生多模態模型(native multimodal models)的架構設計——即從一開始就對所有模態進行訓練的模型,并進行了廣泛的規模縮放研究,涵蓋了 457 個具有不同架構和訓練混合比例的訓練模型。我們的研究發現,后期融合架構并不比早期融合架構具有固有的優勢,后者不依賴于圖像編碼器。相反,早期融合在參數數量較少的情況下表現出更強的性能,訓練效率更高,也更易于部署。受早期融合架構出色性能的啟發,我們表明引入專家混合(MoEs)能夠使模型學習模態特定權重,從而顯著提升性能。

關鍵詞:標度律(Scaling Laws),原生多模態模型(Native Multimodal Models, NMMs),早期融合(Early Fusion),晚期融合(Late Fusion),混合專家(Mixture of Experts, MoEs)


論文題目:Scaling Laws for Native Multimodal Models 發表時間:2025年4月11日 論文地址:https://arxiv.org/abs/2504.07951

近年來,多模態模型(Multimodal Models)因能同時處理圖像、文本、語音等信號而成為研究熱點。主流方法通常將預訓練的單模態組件(如視覺編碼器與語言模型)拼接為“晚期融合”(Late Fusion)架構,但其依賴獨立模塊的設計可能引入模態偏差,且難以動態分配算力。蘋果公司與索邦大學的研究團隊在最新研究中另辟蹊徑,通過訓練457個不同架構的原生多模態模型(NMMs),首次系統性揭示了多模態模型的標度律,挑戰了傳統認知。

重新審視早、晚期融合架構

傳統晚期融合模型(如CLIP架構)需先通過視覺編碼器處理圖像,再將特征輸入語言模型。而早期融合架構(Early Fusion)直接將原始圖像塊與文本統一輸入單一Transformer,幾乎不依賴模態專屬參數。

研究團隊發現:在相同計算預算下,兩種架構的驗證損失(Validation Loss)近乎一致,但早期融合在小規模模型(<3B參數)中表現更優(圖1)。例如,1.6B參數的早期融合模型在圖像描述任務上的損失比同規模晚期融合低3.2%,且訓練速度提升15%(圖2),說明早期融合具備更優的硬件親和性與部署便捷性,無需維護多模塊的兼容性。


圖 1. 原生多模態模型的標度特性。 根據第3.1節的標度律研究,我們觀察到:(1) 在相同計算預算 C(以FLOPs為單位)下訓練時,早期融合和晚期融合模型提供的驗證損失 L 表現相當;(2) 這種性能表現是通過參數數量 N 和訓練標記數量 D 的不同權衡實現的,其中早期融合模型需要更少的參數;(3) 稀疏早期融合模型在給定FLOP預算下能獲得更低的損失,但需要更多的訓練標記。


圖 2. 早期 vs 晚期:預訓練效率。早期融合訓練起來更快,消耗的內存也更少。

多模態模型的標度律:與LLM的相似之處

通過擬合模型參數(N)、訓練數據量(D)與計算量(C)的關系,研究團隊發現NMMs的標度率與純文本大模型(LLM)高度相似:驗證損失隨計算量呈冪律下降(L ∝ C?0.049)。例如,模型參數量每增加10倍,損失降低約18%。值得注意的是,不同模態數據的標度系數存在差異:圖像描述任務(L ∝ C?0.061)的優化速度顯著快于文本任務(L ∝ C?0.042),這可能因視覺信號的信息密度更高(表 1)。


表 1. 原生多模態模型的標度律。我們報告了早期和晚期混合模型的標度定律結果。我們擬合了不同目標數據類型及其平均損失(AVG)的標度律。

稀疏模型與混合專家(MoE)的突破性優勢

為應對多模態數據的異質性,研究團隊在早期融合中引入混合專家機制(MoE),允許模型動態分配專家網絡處理不同模態。結果顯示,MoE模型在相同推理成本下,性能顯著超越密集模型(圖3)。例如,1.6B參數的稀疏模型在圖像描述任務上的損失比同規模密集模型低9.5%。

進一步分析發現,MoE的專家層呈現出明確的模態專業化:淺層和深層專家傾向處理單一模態,而中間層專家則負責跨模態融合(圖4)。有趣的是,模態無關路由(Modality-Agnostic Routing)的表現優于人工預設的模態專屬路由,說明模型能自主學習最優參數分配策略。


圖 3. MoE vs Dense:標度訓練flop。在標度訓練tokens數量和模型大小時,我們比較了MoE和密集早期融合模型。MoEs在匹配活動參數數量時優于密集模型。


圖 4. MoE專業化頻率(specialization frequency)。

實踐啟示與未來方向

研究表明,早期融合架構在大多數場景下是更優選擇,尤其在資源受限時優勢顯著。此外,數據混合比例對擴展規律影響微弱,這意味著開發者可靈活調整數據配比。不過,研究仍存在局限,實驗限于圖像-文本雙模態,未探索更高分辨率輸入對早期融合的影響。未來工作或將驗證這些定律在視頻、音頻等復雜模態中的普適性。這一突破為多模態模型的架構設計與訓練策略提供了全新視角,或推動更高效、輕量的通用AI系統誕生。

彭晨| 編譯

「人機協同的智能時代」讀書會

集智俱樂部聯合中國科學技術大學教授趙云波、華東師范大學副教授吳興蛟兩位老師共同發起。本次讀書會將探討:

人類智能和機器智能各自的優勢有哪些?智能邊界如何?如何通過更有效的標注策略和數據生成技術來解決數據稀缺問題?如何設計更加高效的人機協作系統,實現高效共贏的效果?如何提高機器決策的可解釋性與透明性,確保系統的可信度?如何通過多模態協作融合不同感知通道,應對復雜的決策任務?

讀書會計劃從6月21日開始,每周六晚19:00-21:00進行,預計持續約8周。誠摯邀請領域內研究者、尋求跨領域融合的研究者加入,共同探討。

詳情請見:

1.

2.

3.

4.

5.

6.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美預言家朱迪再爆猛料:美日中命運已定,此島將首遭災

美預言家朱迪再爆猛料:美日中命運已定,此島將首遭災

心靈短笛
2025-05-12 10:05:25
可惜!尼克斯6場加起來只輸11分,其中兩場分差在5分以內

可惜!尼克斯6場加起來只輸11分,其中兩場分差在5分以內

雷速體育
2025-06-01 12:01:28
正大量上市!葉酸是芹菜的20倍,建議中老年常吃強免疫,腿腳帶勁

正大量上市!葉酸是芹菜的20倍,建議中老年常吃強免疫,腿腳帶勁

斯佳麗的小廚房
2025-05-27 07:05:03
阿拉伯五國外長集體譴責以色列

阿拉伯五國外長集體譴責以色列

參考消息
2025-06-01 12:09:17
公職人員下班后聚餐算違紀嗎?中紀委給出明確標準

公職人員下班后聚餐算違紀嗎?中紀委給出明確標準

戶外小阿隋
2025-05-29 10:16:20
86票贊成,美國得州通過新法案,不許中國等外國人在美買房買地

86票贊成,美國得州通過新法案,不許中國等外國人在美買房買地

大道無形我有型
2025-05-30 21:02:48
沒機會躺平了,降息后資金潮必掀滔天浪!

沒機會躺平了,降息后資金潮必掀滔天浪!

棠花咊吟
2025-05-20 20:00:08
生病時親人來探望是啥感受?網友:是人是鬼,從來未曾如此感受過

生病時親人來探望是啥感受?網友:是人是鬼,從來未曾如此感受過

解讀熱點事件
2025-06-01 00:15:08
央視曝光的5種“假水果”騙局,換個名字就坑錢,千萬別上當了

央視曝光的5種“假水果”騙局,換個名字就坑錢,千萬別上當了

市井覓食記
2025-05-16 00:11:23
TVB“御用中風王”新劇再次中風!這次結局最慘!曾演《八仙過海》《天龍八部》角色經典

TVB“御用中風王”新劇再次中風!這次結局最慘!曾演《八仙過海》《天龍八部》角色經典

我愛追港劇
2025-05-31 23:25:15
6月1日起,3 生肖偏財大旺,喜事進門財運匯聚,喜獲豐收

6月1日起,3 生肖偏財大旺,喜事進門財運匯聚,喜獲豐收

人閒情事
2025-06-01 11:12:01
《長安的荔枝》定檔央八,雷佳音岳云鵬主演,要打臉古裝劇沒收視

《長安的荔枝》定檔央八,雷佳音岳云鵬主演,要打臉古裝劇沒收視

農村教育光哥
2025-05-31 12:01:50
歐冠決賽復盤:巴黎“狂鋒”背后有高人指點,請叫他們新典禮中場

歐冠決賽復盤:巴黎“狂鋒”背后有高人指點,請叫他們新典禮中場

直播吧
2025-06-01 11:39:37
關注 | 或在回懟余承東?盧偉冰:詆毀本身就是一種仰望

關注 | 或在回懟余承東?盧偉冰:詆毀本身就是一種仰望

藍色海邊
2025-06-01 11:18:20
斯坦福意外用AI生成超強CUDA內核,性能比人類專家優化得還要好!

斯坦福意外用AI生成超強CUDA內核,性能比人類專家優化得還要好!

量子位
2025-05-31 11:46:56
隱形“嘌呤大戶”被揪出!不想尿酸升高,這4種食物少碰

隱形“嘌呤大戶”被揪出!不想尿酸升高,這4種食物少碰

39健康網
2025-05-28 20:30:39
42歲陳妍希曬慶生照,與兒子溫馨同框,小星星身高猛躥超媽媽肩膀

42歲陳妍希曬慶生照,與兒子溫馨同框,小星星身高猛躥超媽媽肩膀

偵探娛樂
2025-06-01 10:38:20
臉上被男友噴了一記臭屁!妹子得了7年鼻竇炎,鼻子里查出大腸桿菌?

臉上被男友噴了一記臭屁!妹子得了7年鼻竇炎,鼻子里查出大腸桿菌?

英國那些事兒
2025-05-26 23:17:23
華為驚天內部斗爭,余承東直面真相!

華為驚天內部斗爭,余承東直面真相!

一說煙雨任平生
2025-05-31 22:03:45
出差住亞朵,已經成了職場潛規則

出差住亞朵,已經成了職場潛規則

B面人物
2025-05-14 12:38:58
2025-06-01 12:35:00
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關知識技能
5132文章數 4634關注度
往期回顧 全部

科技要聞

特朗普突然炒掉NASA準局長,嫌他不"忠誠"?

頭條要聞

玩滑翔傘被“吸”至8000米高空 當事人親述逃生細節

頭條要聞

玩滑翔傘被“吸”至8000米高空 當事人親述逃生細節

體育要聞

亞錦賽女子200米:16歲陳妤頡22秒97奪金

娛樂要聞

張若昀夫婦國外遛娃 男方推平價兒童車

財經要聞

油價繼續下跌?歐佩克宣布將再度增產

汽車要聞

零跑汽車5月交付量達45,067臺 穩居新勢力前三

態度原創

健康
親子
房產
教育
軍事航空

唇皰疹和口腔潰瘍是"同伙"嗎?

親子要聞

媽媽問女兒:想不想讀書?3歲女兒的回答太搞笑了

房產要聞

金地華南落子海南自貿港22萬㎡標桿項目,夯實代建行業領軍者地位

教育要聞

民生政策 落地有聲|課間15分鐘 讓孩子們動起來的N種可能

軍事要聞

美防長在香會大肆渲染中國威脅 中方回應

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 兴山县| 建平县| 治多县| 石门县| 郎溪县| 拉孜县| 弥渡县| 额尔古纳市| 锡林浩特市| 漠河县| 寿阳县| 霞浦县| 茶陵县| 龙海市| 昌邑市| 巩留县| 察哈| 北辰区| 建德市| 南召县| 隆昌县| 开江县| 壤塘县| 甘孜县| 淮北市| 抚远县| 乌拉特前旗| 武穴市| 郧西县| 安义县| 临安市| 昌吉市| 元阳县| 淮滨县| 乐平市| 楚雄市| 林甸县| 大港区| 福贡县| 沾化县| 伊金霍洛旗|