DreamPRM 由加州大學圣地亞哥分校的研究團隊開發,在數學推理權威測評榜MathVista上獲得了第一名。第一作者為博士生 Qi Cao,通訊作者為該校副教授 Pengtao Xie,團隊其他成員還包括王睿一,Ruiyi Zhang 和 Sai Ashish Somayajula。
使用過程獎勵模型(PRM)強化大語言模型的推理能力已在純文本任務中取得顯著成果,但將過程獎勵模型擴展至多模態大語言模型(MLLMs)時,面臨兩大難題:
- 由于多模態輸入(圖像 + 文本)構成高維連續與離散信號的混合空間,訓練數據與測試數據的分布偏移(Distribution Shift)遠超純文本場景,導致一般過程獎勵模型泛化能力顯著下降。
- 數據集質量失衡。現有開源多模態推理數據集存在大量低價值樣本,如冗余模態與低難度問題。若直接用于訓練,噪聲數據會稀釋過程獎勵模型對關鍵推理步驟(如跨模態邏輯銜接)的監督信號。
針對上述問題,我們通過雙層優化框架,將數據域權重(Domain Weights)作為可學習參數,動態抑制低質量數據域的影響,同時強化高信息密度數據域(如需要多步跨模態推理的 M3CoT 數據集)的貢獻,實現數據質量與覆蓋率的理想平衡。
- 論文標題:DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning
- 論文地址
- https://arxiv.org/abs/2505.20241v2
- 代碼地址
- https://github.com/coder-qicao/DreamPRM
DreamPRM 方法在 MathVista 數學推理排行榜上榮登榜首。DreamPRM 以多層級優化為核心,作為一個與具體大語言模型無關的通用框架,可與任何多模態大語言模型無縫集成,顯著提升其數學推理能力。
通過解決數據質量不均衡問題,DreamPRM 大幅提升了多模態過程獎勵模型的性能。
DreamPRM 雙層優化框架
技術核心:雙層優化機制詳解
DreamPRM 的核心創新在于將過程獎勵模型的訓練過程構建為一個可微分的雙層優化問題,通過動態調整數據域權重來解決多模態推理中的分布偏移和質量失衡問題。該框架包含兩個緊密耦合的優化階段,共同驅動模型性能的提升。
在下層優化階段,系統同時在 15 個多樣化訓練域上進行 PRM 參數訓練。每個數據域(如科學問答、幾何推理等)都被賦予一個動態權重
以反映不同數據域對總體損失函數的貢獻程度。具體實現中,系統會計算每個域的蒙特卡洛監督信號:
對于給定的中間推理步驟,通過多次采樣補全結果并統計正確率,生成對當前步驟質量的概率估計。下層優化使用域加權的過程獎勵模型輸出與正確率監督的 MSE 損失更新過程獎勵模型的參數:
在上層優化階段,系統使用獨立于下層優化訓練資料的基于 MMMU 篩選的元數據集作為訓練數據。這個精心構建的元數據集覆蓋 30 個學科 183 個子領域,能夠真實且全面地模擬 PRM 的推理場景以評估其泛化能力。上層優化階段通過最小化聚合后的過程評價與最終答案準確與否的差異,反向傳播誤差并更新各個數據域的權重。
這個雙層架構創造了一個自適應的正反饋循環:高質量的推理數據域(如需要復雜跨模態推理的 M3CoT)會逐漸獲得更高的權重,而包含大量簡單樣本的域(如 AI2D)的權重則會下降。整個優化過程展現出良好的收斂特性,初始設為 1.0 的域權重會在訓練中自然分化,最終形成與數據域信息密度高度相關的權重分布。
實驗結果
主要性能表現
- 領域重加權優勢顯著:DreamPRM 在所有五項基準測試中穩定超越其他 PRM 方法,相比無數據選擇的原始 PRM 提升 2-3%。其自動學習的域權重策略優于人工設計的啟發式規則(如 s1-PRM 和 CaR-PRM),證明數據驅動的優化更有效。
- 小模型超越大模型:DreamPRM 使僅 80 億參數的 InternVL-2.5-8B-MPO 模型在多數基準上表現優于大型閉源模型(如 GPT-4v 和 Gemini-1.5),展現了強大的推理能力提升。
- 細粒度評估帶來提升:過程監督模型通過逐步評分機制超越其他測試時優化方法(如自洽性校驗),驗證了細粒度評估的關鍵作用。
規模擴展實驗
- DreamPRM 的性能隨著候選推理鏈(CoT)數量的增加而穩定提升。如圖所示,當 CoT 數量從 2 條增至 8 條時,DreamPRM 在全部五個基準測試上的準確率均持續提高。
- DreamPRM 能無縫遷移到更強的多模態大模型上。如圖所示,當應用于 GPT-4.1-mini 和 o4-mini 等更強模型時,在 MathVista 基準上的準確率均有提升,充分證明了 DreamPRM 的泛化能力。
學習到的數據域權重
最終學習到的數據域權重范圍為 0.55 至 1.49,其中 M3CoT 和 FigureQA 獲得最高權重(約 1.5),而 AI2D 和 IconQA 權重較低(小于 0.8)。這種權重分配模式有效提升了 PRM 性能,同時證實了不同數據集間存在顯著的質量差異。
總結
DreamPRM 通過創新的雙層優化機制,成功解決了多模態過程獎勵模型訓練中數據質量失衡和分布偏移的難題。雙層優化框架自動學習各數據域的最優權重,使 DreamPRM 在五項基準測試中全面超越一般 PRM 方法,尤其在高難度數學推理任務上表現突出。
實驗表明,該方法不僅能提升基礎模型 4% 的平均性能,還可無縫遷移至 o4-mini 等新模型,且隨著候選推理鏈數量增加持續改善結果。DreamPRM 的細粒度過程監督和可解釋的權重分配,為多模態過程獎勵模型的高效訓練提供了新范式。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.