99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

告別數據噪音,UCSD大模型推理新方法登頂MathVista測評榜

0
分享至



DreamPRM 由加州大學圣地亞哥分校的研究團隊開發,在數學推理權威測評榜MathVista上獲得了第一名。第一作者為博士生 Qi Cao,通訊作者為該校副教授 Pengtao Xie,團隊其他成員還包括王睿一,Ruiyi Zhang 和 Sai Ashish Somayajula。

使用過程獎勵模型(PRM)強化大語言模型的推理能力已在純文本任務中取得顯著成果,但將過程獎勵模型擴展至多模態大語言模型(MLLMs)時,面臨兩大難題:

  • 由于多模態輸入(圖像 + 文本)構成高維連續與離散信號的混合空間,訓練數據與測試數據的分布偏移(Distribution Shift)遠超純文本場景,導致一般過程獎勵模型泛化能力顯著下降。

  • 數據集質量失衡。現有開源多模態推理數據集存在大量低價值樣本,如冗余模態與低難度問題。若直接用于訓練,噪聲數據會稀釋過程獎勵模型對關鍵推理步驟(如跨模態邏輯銜接)的監督信號。

針對上述問題,我們通過雙層優化框架,將數據域權重(Domain Weights)作為可學習參數,動態抑制低質量數據域的影響,同時強化高信息密度數據域(如需要多步跨模態推理的 M3CoT 數據集)的貢獻,實現數據質量與覆蓋率的理想平衡。



  • 論文標題:DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning
  • 論文地址
  • https://arxiv.org/abs/2505.20241v2
  • 代碼地址
  • https://github.com/coder-qicao/DreamPRM





DreamPRM 方法在 MathVista 數學推理排行榜上榮登榜首。DreamPRM 以多層級優化為核心,作為一個與具體大語言模型無關的通用框架,可與任何多模態大語言模型無縫集成,顯著提升其數學推理能力。



通過解決數據質量不均衡問題,DreamPRM 大幅提升了多模態過程獎勵模型的性能。



DreamPRM 雙層優化框架

技術核心:雙層優化機制詳解

DreamPRM 的核心創新在于將過程獎勵模型的訓練過程構建為一個可微分的雙層優化問題,通過動態調整數據域權重來解決多模態推理中的分布偏移和質量失衡問題。該框架包含兩個緊密耦合的優化階段,共同驅動模型性能的提升。

在下層優化階段,系統同時在 15 個多樣化訓練域上進行 PRM 參數訓練。每個數據域(如科學問答、幾何推理等)都被賦予一個動態權重



以反映不同數據域對總體損失函數的貢獻程度。具體實現中,系統會計算每個域的蒙特卡洛監督信號:

對于給定的中間推理步驟,通過多次采樣補全結果并統計正確率,生成對當前步驟質量的概率估計。下層優化使用域加權的過程獎勵模型輸出與正確率監督的 MSE 損失更新過程獎勵模型的參數:





在上層優化階段,系統使用獨立于下層優化訓練資料的基于 MMMU 篩選的元數據集作為訓練數據。這個精心構建的元數據集覆蓋 30 個學科 183 個子領域,能夠真實且全面地模擬 PRM 的推理場景以評估其泛化能力。上層優化階段通過最小化聚合后的過程評價與最終答案準確與否的差異,反向傳播誤差并更新各個數據域的權重。

這個雙層架構創造了一個自適應的正反饋循環:高質量的推理數據域(如需要復雜跨模態推理的 M3CoT)會逐漸獲得更高的權重,而包含大量簡單樣本的域(如 AI2D)的權重則會下降。整個優化過程展現出良好的收斂特性,初始設為 1.0 的域權重會在訓練中自然分化,最終形成與數據域信息密度高度相關的權重分布。



實驗結果

主要性能表現



  • 領域重加權優勢顯著:DreamPRM 在所有五項基準測試中穩定超越其他 PRM 方法,相比無數據選擇的原始 PRM 提升 2-3%。其自動學習的域權重策略優于人工設計的啟發式規則(如 s1-PRM 和 CaR-PRM),證明數據驅動的優化更有效。

  • 小模型超越大模型:DreamPRM 使僅 80 億參數的 InternVL-2.5-8B-MPO 模型在多數基準上表現優于大型閉源模型(如 GPT-4v 和 Gemini-1.5),展現了強大的推理能力提升。

  • 細粒度評估帶來提升:過程監督模型通過逐步評分機制超越其他測試時優化方法(如自洽性校驗),驗證了細粒度評估的關鍵作用。

規模擴展實驗



  • DreamPRM 的性能隨著候選推理鏈(CoT)數量的增加而穩定提升。如圖所示,當 CoT 數量從 2 條增至 8 條時,DreamPRM 在全部五個基準測試上的準確率均持續提高。

  • DreamPRM 能無縫遷移到更強的多模態大模型上。如圖所示,當應用于 GPT-4.1-mini 和 o4-mini 等更強模型時,在 MathVista 基準上的準確率均有提升,充分證明了 DreamPRM 的泛化能力。

學習到的數據域權重



最終學習到的數據域權重范圍為 0.55 至 1.49,其中 M3CoT 和 FigureQA 獲得最高權重(約 1.5),而 AI2D 和 IconQA 權重較低(小于 0.8)。這種權重分配模式有效提升了 PRM 性能,同時證實了不同數據集間存在顯著的質量差異。

總結

DreamPRM 通過創新的雙層優化機制,成功解決了多模態過程獎勵模型訓練中數據質量失衡和分布偏移的難題。雙層優化框架自動學習各數據域的最優權重,使 DreamPRM 在五項基準測試中全面超越一般 PRM 方法,尤其在高難度數學推理任務上表現突出。

實驗表明,該方法不僅能提升基礎模型 4% 的平均性能,還可無縫遷移至 o4-mini 等新模型,且隨著候選推理鏈數量增加持續改善結果。DreamPRM 的細粒度過程監督和可解釋的權重分配,為多模態過程獎勵模型的高效訓練提供了新范式。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
告訴爸媽別舍不得開空調!研究發現:溫度適當調低,能產生抑癌效果!

告訴爸媽別舍不得開空調!研究發現:溫度適當調低,能產生抑癌效果!

人民日報健康客戶端
2025-07-10 07:35:42
1964年,曹達華在澳門,“輸”掉了1500億,賭王送他一張終身免費吃喝貴賓卡

1964年,曹達華在澳門,“輸”掉了1500億,賭王送他一張終身免費吃喝貴賓卡

坦然風云
2025-06-20 07:23:49
謝霆鋒補百億巨債?向佐雙胞妹妹是情侶?于正封殺自家藝人?楊天真減肥靠吃藥?女前輩懶理綠茶女星?

謝霆鋒補百億巨債?向佐雙胞妹妹是情侶?于正封殺自家藝人?楊天真減肥靠吃藥?女前輩懶理綠茶女星?

十錘星人
2025-07-10 23:05:20
正式退出?全紅嬋官宣意外決定,中國跳水隊無奈批準,陳芋汐祝福

正式退出?全紅嬋官宣意外決定,中國跳水隊無奈批準,陳芋汐祝福

邵陽縣融媒體中心
2025-07-09 22:40:42
楊議發布訃告,公布葬禮過程,德云社郭德綱、高峰等人已去吊唁

楊議發布訃告,公布葬禮過程,德云社郭德綱、高峰等人已去吊唁

蜜桔娛樂
2025-07-10 08:29:12
澳大利亞總理訪華在即,為何選擇這三座中國城市?

澳大利亞總理訪華在即,為何選擇這三座中國城市?

上觀新聞
2025-07-10 16:42:37
算命說,這3屬相,最逃不過富豪命!中年后財運大開數錢數到手軟

算命說,這3屬相,最逃不過富豪命!中年后財運大開數錢數到手軟

人閒情事
2025-07-10 13:38:47
真相大白!天水幼兒血鉛異常事件禍根為顏料,有網友仍在刨根問底

真相大白!天水幼兒血鉛異常事件禍根為顏料,有網友仍在刨根問底

明月雜談
2025-07-08 15:18:24
租戶不開空調,房東竟然要求租戶退租

租戶不開空調,房東竟然要求租戶退租

小人物看盡人間百態
2025-07-10 15:15:04
幼兒血鉛后續:驚動聯合國兒基會!疑后廚家人喊冤,懷孕老師中招

幼兒血鉛后續:驚動聯合國兒基會!疑后廚家人喊冤,懷孕老師中招

阿燕姐說育兒
2025-07-11 01:23:46
加沙民兵與哈馬斯作戰并確認與以色列合作

加沙民兵與哈馬斯作戰并確認與以色列合作

桂系007
2025-07-06 17:26:26
新聞圖直出的美貌…

新聞圖直出的美貌…

阿廢冷眼觀察所
2025-06-14 01:19:01
梅根慶祝結婚七周年,王室女眷表情成焦點。

梅根慶祝結婚七周年,王室女眷表情成焦點。

風到腰彎
2025-05-24 09:15:15
“可以舉報了”,母親曬女兒在電網第一月工資,眼尖網友發現貓膩

“可以舉報了”,母親曬女兒在電網第一月工資,眼尖網友發現貓膩

知曉科普
2025-07-09 08:10:11
漓江景區遇難的兄弟,弟弟是醫學博士,哥哥在廣東有穩定工作

漓江景區遇難的兄弟,弟弟是醫學博士,哥哥在廣東有穩定工作

魔都姐姐雜談
2025-07-09 16:28:47
上海42歲女士骨折,手術順利突然死亡,尸體解剖結果醫生都“蒙”

上海42歲女士骨折,手術順利突然死亡,尸體解剖結果醫生都“蒙”

觀星賞月
2025-07-10 10:05:30
俄議員:俄有權從中國“收回”遼寧艦,中方務必拆掉武器停止軍用

俄議員:俄有權從中國“收回”遼寧艦,中方務必拆掉武器停止軍用

boss外傳
2025-04-15 09:35:03
不是魯能,王大雷官宣,找到新工作,聯手小將,克雷桑祝福

不是魯能,王大雷官宣,找到新工作,聯手小將,克雷桑祝福

東球弟
2025-07-10 10:17:35
杭州一漂流景區內村民撈手機索酬未果扔回水中,警方:行政拘留7日

杭州一漂流景區內村民撈手機索酬未果扔回水中,警方:行政拘留7日

極目新聞
2025-07-10 16:36:20
天水鉛中毒事件,檢查結果相差幾十倍

天水鉛中毒事件,檢查結果相差幾十倍

南風窗
2025-07-08 14:57:16
2025-07-11 04:28:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10837文章數 142364關注度
往期回顧 全部

科技要聞

Grok4最貴訂閱月費2千,會不會三觀不正?

頭條要聞

退休人員基本養老金為何上調2% 人社部發文回應

頭條要聞

退休人員基本養老金為何上調2% 人社部發文回應

體育要聞

白衣生涯最后一舞,但魔笛的故事還沒結束

娛樂要聞

宋佳,真的好叛逆!

財經要聞

潮玩規模破千億的幕后故事

汽車要聞

靠譜奶爸的底氣 樂道L90靜態體驗

態度原創

藝術
旅游
家居
游戲
健康

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

美式簡約 奢華不失優雅

魔獸懷舊服:團長發問為什么不吃合劑,玩家神回復,收益是關鍵

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 苍溪县| 安仁县| 黑河市| 孟连| 酒泉市| 沽源县| 南充市| 都匀市| 江城| 玉树县| 中阳县| 巨野县| 绿春县| 沙田区| 嘉兴市| 伊川县| 根河市| 扬州市| 宁波市| 黄冈市| 宁远县| 河南省| 绥芬河市| 南岸区| 荥经县| 礼泉县| 奇台县| 宾阳县| 云浮市| 芜湖市| 鸡西市| 冀州市| 四子王旗| 南和县| 澄城县| 惠来县| 明水县| 隆子县| 湘潭市| 依安县| 图片|