99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

告別數據噪音,UCSD大模型推理新方法登頂MathVista測評榜

0
分享至



DreamPRM 由加州大學圣地亞哥分校的研究團隊開發,在數學推理權威測評榜MathVista上獲得了第一名。第一作者為博士生 Qi Cao,通訊作者為該校副教授 Pengtao Xie,團隊其他成員還包括王睿一,Ruiyi Zhang 和 Sai Ashish Somayajula。

使用過程獎勵模型(PRM)強化大語言模型的推理能力已在純文本任務中取得顯著成果,但將過程獎勵模型擴展至多模態大語言模型(MLLMs)時,面臨兩大難題:

  • 由于多模態輸入(圖像 + 文本)構成高維連續與離散信號的混合空間,訓練數據與測試數據的分布偏移(Distribution Shift)遠超純文本場景,導致一般過程獎勵模型泛化能力顯著下降。

  • 數據集質量失衡。現有開源多模態推理數據集存在大量低價值樣本,如冗余模態與低難度問題。若直接用于訓練,噪聲數據會稀釋過程獎勵模型對關鍵推理步驟(如跨模態邏輯銜接)的監督信號。

針對上述問題,我們通過雙層優化框架,將數據域權重(Domain Weights)作為可學習參數,動態抑制低質量數據域的影響,同時強化高信息密度數據域(如需要多步跨模態推理的 M3CoT 數據集)的貢獻,實現數據質量與覆蓋率的理想平衡。



  • 論文標題:DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning
  • 論文地址
  • https://arxiv.org/abs/2505.20241v2
  • 代碼地址
  • https://github.com/coder-qicao/DreamPRM





DreamPRM 方法在 MathVista 數學推理排行榜上榮登榜首。DreamPRM 以多層級優化為核心,作為一個與具體大語言模型無關的通用框架,可與任何多模態大語言模型無縫集成,顯著提升其數學推理能力。



通過解決數據質量不均衡問題,DreamPRM 大幅提升了多模態過程獎勵模型的性能。



DreamPRM 雙層優化框架

技術核心:雙層優化機制詳解

DreamPRM 的核心創新在于將過程獎勵模型的訓練過程構建為一個可微分的雙層優化問題,通過動態調整數據域權重來解決多模態推理中的分布偏移和質量失衡問題。該框架包含兩個緊密耦合的優化階段,共同驅動模型性能的提升。

在下層優化階段,系統同時在 15 個多樣化訓練域上進行 PRM 參數訓練。每個數據域(如科學問答、幾何推理等)都被賦予一個動態權重



以反映不同數據域對總體損失函數的貢獻程度。具體實現中,系統會計算每個域的蒙特卡洛監督信號:

對于給定的中間推理步驟,通過多次采樣補全結果并統計正確率,生成對當前步驟質量的概率估計。下層優化使用域加權的過程獎勵模型輸出與正確率監督的 MSE 損失更新過程獎勵模型的參數:





在上層優化階段,系統使用獨立于下層優化訓練資料的基于 MMMU 篩選的元數據集作為訓練數據。這個精心構建的元數據集覆蓋 30 個學科 183 個子領域,能夠真實且全面地模擬 PRM 的推理場景以評估其泛化能力。上層優化階段通過最小化聚合后的過程評價與最終答案準確與否的差異,反向傳播誤差并更新各個數據域的權重。

這個雙層架構創造了一個自適應的正反饋循環:高質量的推理數據域(如需要復雜跨模態推理的 M3CoT)會逐漸獲得更高的權重,而包含大量簡單樣本的域(如 AI2D)的權重則會下降。整個優化過程展現出良好的收斂特性,初始設為 1.0 的域權重會在訓練中自然分化,最終形成與數據域信息密度高度相關的權重分布。



實驗結果

主要性能表現



  • 領域重加權優勢顯著:DreamPRM 在所有五項基準測試中穩定超越其他 PRM 方法,相比無數據選擇的原始 PRM 提升 2-3%。其自動學習的域權重策略優于人工設計的啟發式規則(如 s1-PRM 和 CaR-PRM),證明數據驅動的優化更有效。

  • 小模型超越大模型:DreamPRM 使僅 80 億參數的 InternVL-2.5-8B-MPO 模型在多數基準上表現優于大型閉源模型(如 GPT-4v 和 Gemini-1.5),展現了強大的推理能力提升。

  • 細粒度評估帶來提升:過程監督模型通過逐步評分機制超越其他測試時優化方法(如自洽性校驗),驗證了細粒度評估的關鍵作用。

規模擴展實驗



  • DreamPRM 的性能隨著候選推理鏈(CoT)數量的增加而穩定提升。如圖所示,當 CoT 數量從 2 條增至 8 條時,DreamPRM 在全部五個基準測試上的準確率均持續提高。

  • DreamPRM 能無縫遷移到更強的多模態大模型上。如圖所示,當應用于 GPT-4.1-mini 和 o4-mini 等更強模型時,在 MathVista 基準上的準確率均有提升,充分證明了 DreamPRM 的泛化能力。

學習到的數據域權重



最終學習到的數據域權重范圍為 0.55 至 1.49,其中 M3CoT 和 FigureQA 獲得最高權重(約 1.5),而 AI2D 和 IconQA 權重較低(小于 0.8)。這種權重分配模式有效提升了 PRM 性能,同時證實了不同數據集間存在顯著的質量差異。

總結

DreamPRM 通過創新的雙層優化機制,成功解決了多模態過程獎勵模型訓練中數據質量失衡和分布偏移的難題。雙層優化框架自動學習各數據域的最優權重,使 DreamPRM 在五項基準測試中全面超越一般 PRM 方法,尤其在高難度數學推理任務上表現突出。

實驗表明,該方法不僅能提升基礎模型 4% 的平均性能,還可無縫遷移至 o4-mini 等新模型,且隨著候選推理鏈數量增加持續改善結果。DreamPRM 的細粒度過程監督和可解釋的權重分配,為多模態過程獎勵模型的高效訓練提供了新范式。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
7月11日俄烏最新:人類軍事史上的第一次

7月11日俄烏最新:人類軍事史上的第一次

西樓飲月
2025-07-11 19:44:41
陜西19歲高考生找暑假工失聯,家人多次接到電話稱花20萬可救出,懷疑被誘騙至緬甸

陜西19歲高考生找暑假工失聯,家人多次接到電話稱花20萬可救出,懷疑被誘騙至緬甸

瀟湘晨報
2025-07-12 12:00:51
上海夫妻攤上荒唐獨生女,千萬房產被離奇轉走!

上海夫妻攤上荒唐獨生女,千萬房產被離奇轉走!

看看新聞Knews
2025-07-11 21:57:28
甘肅省阿克塞縣警方通報“青甘大環線三車12胎被扎”事件:兩名犯罪嫌疑人被抓獲

甘肅省阿克塞縣警方通報“青甘大環線三車12胎被扎”事件:兩名犯罪嫌疑人被抓獲

環球網資訊
2025-07-12 07:05:10
不對勁!上海虹橋站一背包內驚現大量港幣和美元!包主人卻失聯?

不對勁!上海虹橋站一背包內驚現大量港幣和美元!包主人卻失聯?

環球網資訊
2025-07-12 09:31:39
夏聯首秀緊張嗎?楊瀚森:不緊張,我感覺翻譯比我緊張多了

夏聯首秀緊張嗎?楊瀚森:不緊張,我感覺翻譯比我緊張多了

懂球帝
2025-07-12 09:26:12
眾人狂贊楊瀚森!8分2籃板2助攻2封蓋 勇記:明白為何是16順位

眾人狂贊楊瀚森!8分2籃板2助攻2封蓋 勇記:明白為何是16順位

驚奇侃球
2025-07-12 12:15:01
黃奇帆深夜長文:未來30年,中國經濟的勝負手不是芯片

黃奇帆深夜長文:未來30年,中國經濟的勝負手不是芯片

牛鍋巴小釩
2025-07-12 03:58:35
芬蘭決定“退群”:已通知聯合國

芬蘭決定“退群”:已通知聯合國

環球時報國際
2025-07-11 18:47:33
你見過最離譜的找人行為是啥?網友:不服不行,還是科技太發達

你見過最離譜的找人行為是啥?網友:不服不行,還是科技太發達

解讀熱點事件
2025-07-10 00:10:02
楊少華出殯日最大尷尬:被楊議隆重感謝的常馬侯三家,無一人到場

楊少華出殯日最大尷尬:被楊議隆重感謝的常馬侯三家,無一人到場

史書無明
2025-07-12 09:06:08
俄駐華大使館高調慶祝“北京條約”奪取外東北(海參崴)160周年

俄駐華大使館高調慶祝“北京條約”奪取外東北(海參崴)160周年

高博新視野
2025-07-12 00:35:02
制度要是落后,即使科技再發達,恐怕也難以實現真正的文明進步!

制度要是落后,即使科技再發達,恐怕也難以實現真正的文明進步!

翻開歷史和現實
2025-07-11 16:44:01
泰娛大花Janie剃度出家,發文告白愛女:媽媽對你的愛永不動搖

泰娛大花Janie剃度出家,發文告白愛女:媽媽對你的愛永不動搖

娛小韓
2025-07-11 04:31:33
得到認可,開拓者隊記:楊瀚森打板三分命中,他就是小薩博尼斯啊!

得到認可,開拓者隊記:楊瀚森打板三分命中,他就是小薩博尼斯啊!

懂球帝
2025-07-12 12:28:25
廣東4名干部被查,1名干部被處分

廣東4名干部被查,1名干部被處分

魯中晨報
2025-07-12 07:39:21
德約科維奇:辛納賽后因我身體不適向我道歉,但他其實沒必要道歉

德約科維奇:辛納賽后因我身體不適向我道歉,但他其實沒必要道歉

直播吧
2025-07-12 08:00:06
活久見!網傳宿舍一上海女生為立規矩,每人送一套上萬名牌化妝品

活久見!網傳宿舍一上海女生為立規矩,每人送一套上萬名牌化妝品

明月雜談
2025-07-12 06:39:38
575分被趕出門最新,寫遺書威脅,臟話不堪入耳,曝出更多猛料

575分被趕出門最新,寫遺書威脅,臟話不堪入耳,曝出更多猛料

洲洲影視娛評
2025-07-11 16:16:48
半年不到 DeepSeek 就涼了?鑒定為學新聞學的。。

半年不到 DeepSeek 就涼了?鑒定為學新聞學的。。

差評XPIN
2025-07-12 00:06:37
2025-07-12 13:36:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10845文章數 142373關注度
往期回顧 全部

科技要聞

黃仁勛警示AI風險:沒新想法,就集體失業

頭條要聞

牛彈琴:越南或在最后一刻遭特朗普暗算 十分失望憤怒

頭條要聞

牛彈琴:越南或在最后一刻遭特朗普暗算 十分失望憤怒

體育要聞

從無畏金蘭到薪火相傳,中國女籃新的花期來了

娛樂要聞

王晶曝張國榮自殺原因 抑郁癥只是其一

財經要聞

中國超半數城市人口下滑,什么信號?

汽車要聞

小米YU7深度試駕:優點很多缺點也很多

態度原創

教育
藝術
健康
公開課
軍事航空

教育要聞

晨鐘暮鼓379:活色生香,為所欲為!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國防部承認美空軍基地在6月被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 盐亭县| 玛纳斯县| 新安县| 武川县| 炉霍县| 卫辉市| 师宗县| 堆龙德庆县| 永济市| 淮安市| 南江县| 德格县| 广元市| 新泰市| 雅江县| 濉溪县| 德惠市| 林西县| 墨脱县| 平远县| 临沭县| 启东市| 宁晋县| 石屏县| 蕲春县| 三亚市| 会昌县| 襄汾县| 扎囊县| 治县。| 赣榆县| 尼玛县| 江永县| 阿鲁科尔沁旗| 进贤县| 崇文区| 仁怀市| 海兴县| 峨眉山市| 临泉县| 隆德县|