99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

MM-Eureka:極少數據實現多模態推理的R1-Zero時刻

0
分享至




盡管 DeepSeek-R1 在單模態推理中取得了顯著成功,但已有的多模態嘗試(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未完全復現其核心特征。

例如,R1-V 僅在簡單計數任務上表現出進步,未能實現回答長度的增長和頓悟時刻;R1-Multimodal-Journey 則在訓練過程中回答長度反而降低;LMM-R1 雖然有所進步,但尚未在大規模圖文數據訓練中得到驗證。而 Kimi 1.5 盡管表現突出,但并未開源其模型或數據。



  • 論文標題:MM-EUREKA:EXPLORING VISUAL AHA MOMENT WITH RULE-BASED LARGE-SCALE REINFORCEMENT LEARNING
  • 代碼地址:https://github.com/ModalMinds/MM-EUREKA
  • 技術報告:https://arxiv.org/pdf/2503.07365
  • 模型地址:https://huggingface.co/FanqingM/MM-Eureka-Zero-38B
  • https://huggingface.co/FanqingM/MM-Eureka-8B
  • 數據集地址:https://huggingface.co/datasets/FanqingM/MM-Eureka-Dataset

我們這篇工作聚焦于一個核心問題:如何在多模態環境中復現 DeepSeek-R1 的關鍵特性,包括穩定的回答長度增長、準確率獎勵以及 Visual aha-moment?

為了解答這一問題,來自上海人工智能實驗室、上海創智學院、上海交通大學和香港大學的研究人員提出了多模態學科推理模型 MM-Eureka。



我們的探索

開源框架:我們基于 OpenRLHF 開發了一個高效可擴展的多模態大規模強化學習框架,支持 InternVL 等多種模型和 RL 算法。相比 R1-V 等已有框架,我們的方案成功訓練了 InternVL 2.5-38B 等大型模型。

穩定訓練:我們開發了兩個模型——MM-Eureka-8B(基于 InternVL 2.5-Instruct-8B)和 MM-Eureka-Zero-38B(基于 InternVL 2.5-Pretrained-38B),均成功復現了穩定的 accuracy reward、response length 增長以及 Visual aha-moment。

極大的數據效率:僅使用 54K 圖文數據進行規則型 RL 訓練,平均性能超過使用 1M 數據的 MPO 模型;整體基準準確率與使用 12M 數據進行 CoT SFT 訓練的模型相當!MM-Eureka-Zero 僅使用 8K 圖文數學推理數據(指令模型的 0.05%),在我們自建的 K12 基準測試上超越指令模型 8.2%,在 MathVerse 上表現相當。

重要發現

  • 極簡的 RL 設計足以獲得出色效果。在 instruct 模型上實驗時,添加 KL 散度會限制模型探索,導致無法觀測到 response length 的提高。



  • 數據選擇對于穩定 RL 訓練很重要!基于難度的數據過濾策略對 RL 訓練穩定性至關重要。在 8B-instruct 模型上進行 RL 訓練時,若不進行數據過濾,訓練過程極其不穩定。



  • 模型在 RL 訓練中展現類似 DeepSeek-R1 的 aha-moment,特別是模型不僅學會反思和回溯,還學會重新審視圖像中的關鍵信息,我們認為這是 Visual aha-moment 的關鍵特征。



我們的成果

  • 無論在 Instruct 還是 Pretrained Model 上,我們均在極簡 RL 設計以及數據篩選策略下實現了穩定的 Accuracy Reward 提升和 Response Length 提升。



  • 在 Instruct 模型上,幾乎全部使用開源數據(50K),便在所有多模態數學推理基準上取得穩定提升。相比其他后訓練策略,比如 MPO(1M 數據)和 CoT SFT(12M 數據),我們發現簡單的 rule-based RL 具備極強的數據高效性,使用幾十分之一的數據,平均性能超過 MPO,與 CoT SFT 相當。



  • 在 Pretrained 模型上進一步挖掘 RL 潛力,僅需 8K 多模態數學推理數據,即可在奧林匹克數學測試集(部分)和 K12 數學推理測試集上,超過使用 16.3M 數據進行 SFT 的指令模型。在 MathVerse 上,兩種模型表現也相似。我們僅使用了指令模型數據量的 0.05%,凸顯了強化學習的巨大潛力!



其他嘗試與反思

我們在復現過程中進行了許多其他的嘗試,在此分享一些我們認為有幫助,但并未成功驗證的操作。我們認為這并不代表這些方法有問題,而是需要進一步探索。

Curriculum Learning:盡管我們基于難度劃分數據并嘗試從易到難訓練,但未觀察到明顯性能提升。我們認為簡單問題的學習難以直接泛化到難題,如何更有效地組織課程學習數據仍需探索。



Online Data Filter:我們將預先基于難度的數據篩選策略記為 Offline Data Filter。這種方案雖然可以幫助 RL 進行穩定訓練,但其數據利用率降低了,因此我們希望在模型訓練過程中動態進行基于難度的數據篩選(類似 PRIME)。然而,我們發現訓練結果不如 offline data filter 穩定,我們認為這是因為每次更新時的數據量不同,導致梯度不穩定。



Model Size:盡管目前一些工作,比如 ORZ、SimpleRL 在 7B level 的 LLM 上也復現了 R1 的表現,但我們在多模態推理場景下,難以通過 8B 的 InternVL Pretrained 進行成功復現。我們認為這受制于多模態推理數據質量以及多模態預訓練數據中很少存在 long CoT 數據。



我們的期望

我們開源了全套數據(包括自助收集的高質量多模態 K12 數據集)、代碼和模型,并發布了詳細的技術報告,涵蓋所有復現過程及未成功的嘗試。希望我們的工作能幫助社區共同推進多模態推理的發展!我們同樣在持續推進模型訓練,請繼續關注!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
飛翼主帥稱贊李月汝:全隊都被她的拼勁和活力感染了

飛翼主帥稱贊李月汝:全隊都被她的拼勁和活力感染了

北青網-北京青年報
2025-06-18 17:43:02
普京:俄方愿調停推動以伊沖突方對話

普京:俄方愿調停推動以伊沖突方對話

新華社
2025-06-18 23:53:02
川粉必備新裝上市

川粉必備新裝上市

西樓飲月
2025-06-18 23:06:27
日本諾貝爾獎獲得者:如果中日再次開戰,日本仍然有能力戰勝中國

日本諾貝爾獎獲得者:如果中日再次開戰,日本仍然有能力戰勝中國

文史達觀
2023-12-31 21:33:06
降息恐巨變,黃金王炸!

降息恐巨變,黃金王炸!

金投網
2025-06-18 17:29:41
巴基斯坦俾路支省鐵路發生爆炸致列車脫軌

巴基斯坦俾路支省鐵路發生爆炸致列車脫軌

澎湃新聞
2025-06-18 15:22:07
被以色列定點清除的伊朗總司令薩拉米其人其事

被以色列定點清除的伊朗總司令薩拉米其人其事

桑未落
2025-06-14 19:32:13
機場碰到52歲張惠妹,她打扮低調。真人個子不高,也沒網傳那么胖

機場碰到52歲張惠妹,她打扮低調。真人個子不高,也沒網傳那么胖

動物奇奇怪怪
2025-06-18 08:49:11
婚宴賴賬52萬后續!王師傅已上訴,進貨單曝光,錢老板還在耍賴

婚宴賴賬52萬后續!王師傅已上訴,進貨單曝光,錢老板還在耍賴

面包夾知識
2025-06-18 13:33:16
貴陽女警和9歲兒子家中遇害,兇手竟是女警母親的年輕追求者

貴陽女警和9歲兒子家中遇害,兇手竟是女警母親的年輕追求者

坦然風云
2025-06-18 17:24:48
知名女演員公開討債:請還錢!最新回應來了

知名女演員公開討債:請還錢!最新回應來了

FM93浙江交通之聲
2025-06-18 23:15:45
央視《淬火年代》收視全國第一!說真的,這才是觀眾想看的年代劇

央視《淬火年代》收視全國第一!說真的,這才是觀眾想看的年代劇

肥羅大電影
2025-06-18 20:30:59
“臺獨”沒料到,75歲馬英九突然出山,曝光美臺秘密,信號不簡單

“臺獨”沒料到,75歲馬英九突然出山,曝光美臺秘密,信號不簡單

熒惑手心
2025-06-18 09:23:43
山西一知名飯店關門通知!

山西一知名飯店關門通知!

山西老鄉俱樂部
2025-06-18 15:07:17
舔狗經濟崩盤了,備胎經濟也崩盤了,資本也逐漸開始拋棄女性了

舔狗經濟崩盤了,備胎經濟也崩盤了,資本也逐漸開始拋棄女性了

加油丁小文
2025-06-16 07:30:03
一周就去世!夏季糖尿病患者若出現這6個癥狀,立即去醫院

一周就去世!夏季糖尿病患者若出現這6個癥狀,立即去醫院

界史
2025-06-18 11:21:13
鄧卓翔:大家付出了所有,這是屬于整個團隊的勝利

鄧卓翔:大家付出了所有,這是屬于整個團隊的勝利

懂球帝
2025-06-19 00:05:17
第一批韭菜開始站崗

第一批韭菜開始站崗

懶貓的豐收日
2025-06-18 18:35:28
老照片 伊朗人民趕走了巴列維  迎來了霍梅尼

老照片 伊朗人民趕走了巴列維 迎來了霍梅尼

那些看得見的老照片
2025-06-18 07:00:06
金正恩手一揮,再給俄6000兵,接下來普京的操作,整個歐洲要看懵

金正恩手一揮,再給俄6000兵,接下來普京的操作,整個歐洲要看懵

梁訊
2025-06-18 09:19:18
2025-06-19 03:04:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10671文章數 142339關注度
往期回顧 全部

科技要聞

別叫我互聯網公司,京東的野心藏不住了

頭條要聞

男子4S店買法拉利3年提不了車 店方:想退款先幫忙賣車

頭條要聞

男子4S店買法拉利3年提不了車 店方:想退款先幫忙賣車

體育要聞

36歲鄧卓翔率隊9輪拿17分 從墊底升第9

娛樂要聞

前老板舉報李雪琴欠190萬轉移公司財產

財經要聞

被爆添加毒原料后相宜本草高管先后出走

汽車要聞

燈光技術升級還有插混版本 全新奧迪Q3預計明年國產

態度原創

教育
手機
藝術
公開課
軍事航空

教育要聞

AI填志愿神器來了!輕松打破信息差,填出你的專屬完美志愿

手機要聞

榮耀Magic V5定檔,還有平板、手表一起發

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普呼吁伊朗無條件投降

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 桃园县| 厦门市| 微山县| 洛隆县| 乐陵市| 永吉县| 沂源县| 凤凰县| 姚安县| 山东| 淮南市| 凤山县| 三原县| 清流县| 吉首市| 洛扎县| 桂阳县| 武穴市| 江陵县| 孝昌县| 罗源县| 库车县| 浪卡子县| 吴堡县| 宁强县| 察隅县| 玉环县| 桦南县| 稷山县| 玉龙| 富宁县| 怀集县| 南靖县| 敖汉旗| 天津市| 阿拉尔市| 陕西省| 申扎县| 德庆县| 嘉义县| 文昌市|