網易首頁 > 網易號 > 正文申請入駐

首個多模態統一CoT獎勵模型來了，模型、數據集、訓練腳本全開源

2025-05-13 18:03:06　來源: 機器之心Pro

天津舉報

分享至

在多模態大模型快速發展的當下，如何精準評估其生成內容的質量，正成為多模態大模型與人類偏好對齊的核心挑戰。然而，當前主流多模態獎勵模型往往只能直接給出評分決策，或僅具備淺層推理能力，缺乏對復雜獎勵任務的深入理解與解釋能力，在高復雜度場景中常出現 “失真失準”。

那么，獎勵模型是否也能具備像人類一樣的深度思考能力？

近日，騰訊混元與上海 AI Lab、復旦大學、上海創智學院聯合提出全新研究工作 UnifiedReward-Think，構建出首個具備長鏈式推理能力的統一多模態獎勵模型，首次讓獎勵模型在各視覺任務上真正 “學會思考”，實現對復雜視覺生成與理解任務的準確評估、跨任務泛化與推理可解釋性的大幅提升。

論文題目: Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
項目主頁：https://codegoat24.github.io/UnifiedReward/think
論文鏈接：https://arxiv.org/pdf/2505.03318
GitHub：https://github.com/CodeGoat24/UnifiedReward
模型：https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
數據集：https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede

一、背景與動機：獎勵模型也需要 “思考”

當前的多模態獎勵模型大多只能對結果進行 “表面判斷”，缺乏深度推理與可解釋的決策依據，難以支撐對復雜視覺任務的精準評估。

該工作研究團隊提出關鍵問題：是否可以引入 “長鏈式思考”（Chain-of-Thought, CoT）機制，賦予獎勵模型更強的推理能力？

挑戰在于，當前缺乏高質量的多模態 CoT 獎勵推理數據，傳統 SFT 等訓練范式難以直接教會模型掌握推理過程。

他們認為，多模態大模型本身具備深層、多維度的推理潛力，關鍵在于設計一套高效訓練范式去激發并強化獎勵模型的 “思考能力”。

二、解決方案：三階段訓練范式，逐步進化獎勵模型推理能力

該研究提出一套新穎的 “三階段” 訓練框架，分為 “激發 → 鞏固 → 強化”，層層推進模型的推理進化：

階段一：冷啟動激發（Cold Start）

使用僅 5K 圖像生成任務的高質量 CoT 獎勵推理數據，讓模型學會基本的推理格式與結構。實驗表明，這一階段就能激發模型在多個視覺任務中的推理能力。

階段二：拒絕采樣鞏固（Rejection Sampling）

利用冷啟動后的模型在各視覺任務的泛化能力，對大規模多模態偏好數據進行推理，通過拒絕采樣剔除邏輯錯誤樣本，強化模型對正確思維鏈的推理模式。

階段三：GRPO 強化（Group Relative Policy Optimization）

針對推理錯誤樣本，引入 GRPO 強化學習機制，引導模型探索多樣化推理路徑，從錯誤中學習，逐步收斂到正確邏輯思考。

三、實驗亮點：獎勵模型不僅能 “顯示長鏈推理”，還能 “隱式邏輯思考”

UnifiedReward-Think 在多個圖像生成與理解任務中進行了系統評估，結果表明該模型具備多項突破性能力：

更強可解釋性：能夠生成清晰、結構化的獎勵推理過程；
更高可靠性與泛化能力：各視覺任務均表現出顯著性能提升；
出現隱式推理能力：即使不顯式輸出思維鏈，模型也能作出高質量判斷，表明推理邏輯已 “內化” 為模型能力的一部分。

定量實驗：長鏈推理帶來全面性能飛躍

定量結果表明

在圖像與視頻生成獎勵任務中，全面優于現有方法；
在圖像理解類獎勵任務上，長鏈思維鏈推理帶來顯著性能提升，驗證了復雜視覺理解對深度推理能力的高度依賴；
即便在不顯式輸出思維鏈的情況下，模型仍能通過隱式邏輯推理保持領先表現，相比顯式 CoT 推理僅有輕微下降，展現出強大的 “內化邏輯” 能力；
與基礎版本 UnifiedReward 相比，加入多維度、多步驟推理帶來了多任務的全面性能躍升，驗證了 “獎勵模型也能深度思考” 的價值。

消融實驗：三階段訓練策略缺一不可

該工作進行了系統的消融實驗，驗證三階段訓練范式中每一步的獨立貢獻：

冷啟動階段：模型學會了 CoT 推理的結構，但對獎勵預測的準確性仍較有限；
拒絕采樣階段：通過篩除推理錯誤樣本，顯著提升了模型對 “正確思維鏈” 的偏好，有效增強了模型的穩定性與泛化性；
GRPO 階段：提升幅度最大，模型聚焦于錯誤推理樣本，通過多路徑推理探索，逐步收斂至更精確的推理過程，體現出該階段對 “推理糾錯” 的關鍵作用。
無推理路徑的 GRPO 版本效果顯著下降。我們進一步驗證：若去除 CoT 推理、讓獎勵模型僅對最終答案進行 GRPO 強化，雖然略優于 baseline，但提升比較有限。說明僅優化結果遠不足以驅動深層推理能力的形成。

結論：顯式建模思維鏈推理路徑，是強化獎勵模型泛化與魯棒性的關鍵。GRPO 訓練階段之所以有效，根源在于 “強化正確推理過程”，而非僅僅是 “強化正確答案”。

定性效果展示

該工作在多種視覺任務中對模型進行了案例測試，展現出其按任務定制評估維度的能力。通過對圖像、視頻或答案進行細粒度、多維度打分，并基于各維度總分進行整體判斷。此設計有效緩解了多模態模型中常見的 “推理過程與最終評分語義脫節” 問題，顯著提升了評估的一致性與可信度。

四：總結

UnifiedReward-Think 展示了獎勵模型的未來方向 —— 不僅僅是一個 “打分器”，而是一個具備認知理解、邏輯推理與可解釋輸出能力的智能評估系統。

目前，該項目已全面開源：包括模型、數據集、訓練腳本與評測工具，歡迎社區研究者探索、復現與應用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.