99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

科學家提出階段式強化學習策略,讓小模型在數學推理測試達SOTA

0
分享至

在人工智能領域,大語言模型的推理能力已取得長足進步。然而,當這一能力擴展到需要同時處理文本和圖像的多模態場景時,研究者們遇到了棘手挑戰——尤其是對于參數規模較小的多模態小語言模型,問題更為突出。

香港理工大學楊紅霞教授團隊提出了一個名為 Infi-MMR 訓練框架,通過創新的三階段訓練策略,成功激活了小語言模型的多模態推理潛能,并在多項數學推理基準測試中達到最強性能(SOTA,State of the Art)水平,甚至超越部分參數量更大的模型。


圖丨論文作者柳澤宇、劉宇航和謝淙愷(來源:該團隊)

日前,相關論文以《Infi-MMR:基于課程學習的多模態小語言模型分階段強化學習解鎖多模態推理能力》(Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models)為題發表在預印本網站arXiv[1]。香港理工大學科研助理柳澤宇和浙江大學碩士生劉宇航是共同第一作者,香港理工大學楊紅霞教授擔任通訊作者。


圖丨相關論文(來源:arXiv)

該團隊致力于將 DeepSeek-R1 在文本領域的基于規則強化學習的成果擴展到多模態領域,同時也致力于解決多模態強化學習中存在的問題。

小語言模型本身參數量少,面臨著以下三個難題:

第一,模態推理數據的質量有待提高。基于規則的強化學習需要可驗證的答案,然而大多數多模態任務側重于標題、圖像描述和視覺問題回答。此外,現有的多模態推理數據集主要處理簡單任務(如計數),很少能同時提供復雜的推理問題和可驗證的答案。

第二,多模態大語言模型基本推理能力的退化。多模態大語言模型整合視覺和文本數據時,往往會削弱其基本推理能力,這種情況在小模型上表現得尤為明顯。此外,跨模態融合的復雜性可能會破壞結構化推理,從而導致推理任務性能的下降。

第三,復雜但不可靠的推理步驟。直接通過多模態數據進行強化學習訓練的多模態大語言模型,往往會生成復雜的推理過程,但是這種推理步驟不僅十分冗長而且通常并不準確。


(來源:arXiv)

Infi-MMR 框架的核心在于其獨特的“漸進式”三階段訓練方法。第一個階段為基礎推理激活(Foundational Reasoning Activation),該階段側重于使用文本數據激發多模態模型的推理能力。

據了解,這一階段不是直接用多模態數據,而是利用高質量的文本推理數據,通過強化學習來強化模型的基礎推理能力。這種方法為模型的穩健邏輯推理做好了準備,解決了標準多模態大模型的一個關鍵限制——通過多模態數據訓練導致的推理能力退化。

第二階段是跨模態推理適應(Cross-Modal Reasoning Adaptation)。基于第一階段建立的基礎推理能力,本階段采用多模態問答對,并添加說明文字信息,逐步將這些能力轉移到多模態領域。

第三階段是多模態推理增強(Multimodal reasoning Enhancement)。為了更加符合現實世界場景,即缺乏圖像描述的多模態問題,研究團隊在第二階段建立的基礎上,使用多模態問答對進一步訓練模型。通過消除對文本說明的依賴,這個階段迫使模型直接從原始視覺輸入中進行解釋和推理,從而減少語言偏差,促進穩健的多模態推理。


圖丨Infi-MMR 的整體框架(來源:arXiv)

值得關注的是,該團隊創新性地引入了標題增強多模態數據(caption-augmented multimodal data),它能幫助模型把在文字領域的推理能力順利轉移到多模態領域,讓模型在不同模態之間進行更可靠的推理。

最后,他們使用 Infi-MMR 這一框架基于 Qwen2.5-VL-3B 的基礎上訓練出專注于數學推理的 Infi-MMR-3B 模型,并在多個多模態數學 benchmark 上達到了 SOTA。

其中,在涵蓋代數、幾何等多領域的 MathVerse 測試集上取得 43.68% 的準確率,不僅超越同參數規模模型,甚至優于部分 80 億參數的大模型;在考察綜合推理能力的 MathVista 測試中達到 67.2%,較基線提升 3.8%。更引人注目的是,其數學推理能力已逼近專有模型 GPT-4o(MathVerse 39.4%)。

這些成績不僅證明了 Infi-MMR 框架的有效性,也展示了模型在多模態領域推理能力的成功轉移。此外,Infi-MMR-3B 在 MathVista 測試中也取得了 67.2% 的成績,進一步驗證了其在多模態數學推理能力上的優異表現。


(來源:arXiv)

該團隊表示,盡管這一模型專注于數學推理領域,但是這一推理能力也能夠泛化到其他需要推理的領域,例如教育、醫療、自動駕駛等。一個有強推理能力的多模態模型,有望幫助人類解決多種相對復雜的問題。后續,他們將繼續在多模態大模型領域內進行探索,讓小模型也擁有強推理的能力。

參考資料:

1.https://arxiv.org/pdf/2505.23091

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
泰國柬埔寨沖突再升級,兩國到底在爭什么?

泰國柬埔寨沖突再升級,兩國到底在爭什么?

iWeekly周末畫報
2025-06-24 13:35:56
無張子宇第2敗!中國U19女籃丟絕平三分遭雙殺 無緣22分大逆轉

無張子宇第2敗!中國U19女籃丟絕平三分遭雙殺 無緣22分大逆轉

醉臥浮生
2025-06-24 21:26:10
清華學霸殺妻再開庭:早已感情破裂,大量細節披露,最后影像曝光

清華學霸殺妻再開庭:早已感情破裂,大量細節披露,最后影像曝光

壹月情感
2025-06-24 23:22:10
伊朗停火,坑了4大盟友,巴基斯坦直言:不再和伊朗展開軍事合作

伊朗停火,坑了4大盟友,巴基斯坦直言:不再和伊朗展開軍事合作

奉壹數碼
2025-06-24 18:41:43
知名品牌凸起廣告被吐槽!是創意還是缺心眼?網友熱議↗

知名品牌凸起廣告被吐槽!是創意還是缺心眼?網友熱議↗

魯中晨報
2025-06-24 14:51:07
對話留守以色列的中國人:因薪資豐厚未撤離,每天向家人報平安

對話留守以色列的中國人:因薪資豐厚未撤離,每天向家人報平安

封面新聞
2025-06-25 00:11:59
美伊涉停火說法不一:特朗普稱雙方同時“求和”,伊媒稱美總統“近乎乞求”德黑蘭停火

美伊涉停火說法不一:特朗普稱雙方同時“求和”,伊媒稱美總統“近乎乞求”德黑蘭停火

環球網資訊
2025-06-24 15:43:33
官方:個人養老金領取時需繳3%個稅

官方:個人養老金領取時需繳3%個稅

南方都市報
2025-06-24 15:47:31
Shams:鵜鶘將CJ交易至奇才,換回普爾、薩迪克-貝和今年40號簽

Shams:鵜鶘將CJ交易至奇才,換回普爾、薩迪克-貝和今年40號簽

懂球帝
2025-06-25 03:24:18
“你只是高考結束了,不是家里發財了!”一句話道出多少家長的無奈

“你只是高考結束了,不是家里發財了!”一句話道出多少家長的無奈

妍妍教育日記
2025-06-24 15:42:18
天津的高考,徹底讓山河四省干淪陷了,600分以上接近13000人

天津的高考,徹底讓山河四省干淪陷了,600分以上接近13000人

星河也燦爛
2025-06-24 20:08:45
央視曝光!又一款陳年老酒暴雷,酒精勾兌、年份造假,溢價超40倍

央視曝光!又一款陳年老酒暴雷,酒精勾兌、年份造假,溢價超40倍

寒士之言本尊
2025-06-24 16:08:29
瓊海通報女生溺亡,拆掉的房門、最差的小孩,揭露多少家教隱痛?

瓊海通報女生溺亡,拆掉的房門、最差的小孩,揭露多少家教隱痛?

教育人看世界
2025-06-24 19:52:51
金融資產超1000萬,將被核查?

金融資產超1000萬,將被核查?

博聞財經
2025-06-24 19:40:10
教育部裝死,老師生病,學生吃藥,中國有2800萬學生抑郁癥!

教育部裝死,老師生病,學生吃藥,中國有2800萬學生抑郁癥!

爆角追蹤
2025-06-24 18:13:56
海南部分企業可合法訪問外網,運營商價格疑曝光:5M寬帶每月1500元

海南部分企業可合法訪問外網,運營商價格疑曝光:5M寬帶每月1500元

小蘿卜絲
2025-06-24 19:49:41
65歲老頭包養26歲女孩以干爹干女兒互稱,最后一次上床被女孩掐死

65歲老頭包養26歲女孩以干爹干女兒互稱,最后一次上床被女孩掐死

胖胖侃咖
2025-06-23 08:00:07
央視曝光知名國酒,純酒精兌水,年份包裝全造假,成本4元賣150

央視曝光知名國酒,純酒精兌水,年份包裝全造假,成本4元賣150

曉風說
2025-06-24 16:58:34
中超烏龍引援!150萬歐外援,落地國內僅1天,改變主意連夜回法國

中超烏龍引援!150萬歐外援,落地國內僅1天,改變主意連夜回法國

小金體壇大視野
2025-06-24 22:59:54
亞足聯官宣!王鈺棟落選,蔣圣龍入選,成國足驕傲

亞足聯官宣!王鈺棟落選,蔣圣龍入選,成國足驕傲

何老師呀
2025-06-24 23:10:06
2025-06-25 05:39:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15333文章數 513807關注度
往期回顧 全部

科技要聞

從十輛到幾百萬輛,中間隔著什么?

頭條要聞

特朗普氣到罵臟話:他們都不知道自己他X的在干什么

頭條要聞

特朗普氣到罵臟話:他們都不知道自己他X的在干什么

體育要聞

如果你喜歡籃球,你沒理由不喜歡步行者

娛樂要聞

范瑋琪淘汰!全網熱議她的演唱失誤

財經要聞

6部門:支持居民就業增收 增強消費信心

汽車要聞

7.98萬起 firefly螢火蟲推出電池租用購車方案

態度原創

旅游
健康
房產
教育
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

呼吸科專家破解呼吸道九大謠言!

房產要聞

三亞頂豪!內部資料曝光!

教育要聞

60名學生僅5人聽課,農村教師崩潰:這樣的教育還有救嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 太保市| 宿州市| 绵阳市| 佳木斯市| 于田县| 阳谷县| 平泉县| 阿勒泰市| 锡林浩特市| 民丰县| 微博| 甘孜| 故城县| 高要市| 叶城县| 邢台市| 鹰潭市| 天等县| 甘泉县| 淮南市| 山西省| 佛冈县| 浏阳市| 漳浦县| 土默特右旗| 贺州市| 双柏县| 堆龙德庆县| 香港| 石楼县| 旅游| 徐水县| 夏河县| 武隆县| 嘉善县| 张家口市| 怀集县| 镶黄旗| 苗栗县| 攀枝花市| 广丰县|