99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

首個多模態統一CoT獎勵模型來了,模型、數據集、訓練腳本全開源

0
分享至



在多模態大模型快速發展的當下,如何精準評估其生成內容的質量,正成為多模態大模型與人類偏好對齊的核心挑戰。然而,當前主流多模態獎勵模型往往只能直接給出評分決策,或僅具備淺層推理能力,缺乏對復雜獎勵任務的深入理解與解釋能力,在高復雜度場景中常出現 “失真失準”。

那么,獎勵模型是否也能具備像人類一樣的深度思考能力?

近日,騰訊混元與上海 AI Lab、復旦大學、上海創智學院聯合提出全新研究工作 UnifiedReward-Think,構建出首個具備長鏈式推理能力的統一多模態獎勵模型,首次讓獎勵模型在各視覺任務上真正 “學會思考”,實現對復雜視覺生成與理解任務的準確評估、跨任務泛化與推理可解釋性的大幅提升。



  • 論文題目: Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
  • 項目主頁:https://codegoat24.github.io/UnifiedReward/think
  • 論文鏈接:https://arxiv.org/pdf/2505.03318
  • GitHub:https://github.com/CodeGoat24/UnifiedReward
  • 模型:https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
  • 數據集:https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede

一、背景與動機:獎勵模型也需要 “思考”

當前的多模態獎勵模型大多只能對結果進行 “表面判斷”,缺乏深度推理與可解釋的決策依據,難以支撐對復雜視覺任務的精準評估。

該工作研究團隊提出關鍵問題:是否可以引入 “長鏈式思考”(Chain-of-Thought, CoT)機制,賦予獎勵模型更強的推理能力?

挑戰在于,當前缺乏高質量的多模態 CoT 獎勵推理數據,傳統 SFT 等訓練范式難以直接教會模型掌握推理過程。

他們認為,多模態大模型本身具備深層、多維度的推理潛力,關鍵在于設計一套高效訓練范式去激發并強化獎勵模型的 “思考能力”。



二、解決方案:三階段訓練范式,逐步進化獎勵模型推理能力

該研究提出一套新穎的 “三階段” 訓練框架,分為 “激發 → 鞏固 → 強化”,層層推進模型的推理進化:

階段一:冷啟動激發(Cold Start)

使用僅 5K 圖像生成任務的高質量 CoT 獎勵推理數據,讓模型學會基本的推理格式與結構。實驗表明,這一階段就能激發模型在多個視覺任務中的推理能力。

階段二:拒絕采樣鞏固(Rejection Sampling)

利用冷啟動后的模型在各視覺任務的泛化能力,對大規模多模態偏好數據進行推理,通過拒絕采樣剔除邏輯錯誤樣本,強化模型對正確思維鏈的推理模式。

階段三:GRPO 強化(Group Relative Policy Optimization)

針對推理錯誤樣本,引入 GRPO 強化學習機制,引導模型探索多樣化推理路徑,從錯誤中學習,逐步收斂到正確邏輯思考。

三、實驗亮點:獎勵模型不僅能 “顯示長鏈推理”,還能 “隱式邏輯思考”

UnifiedReward-Think 在多個圖像生成與理解任務中進行了系統評估,結果表明該模型具備多項突破性能力:

  • 更強可解釋性:能夠生成清晰、結構化的獎勵推理過程;
  • 更高可靠性與泛化能力:各視覺任務均表現出顯著性能提升;
  • 出現隱式推理能力:即使不顯式輸出思維鏈,模型也能作出高質量判斷,表明推理邏輯已 “內化” 為模型能力的一部分。

定量實驗:長鏈推理帶來全面性能飛躍



定量結果表明

  • 在圖像與視頻生成獎勵任務中,全面優于現有方法;
  • 在圖像理解類獎勵任務上,長鏈思維鏈推理帶來顯著性能提升,驗證了復雜視覺理解對深度推理能力的高度依賴;
  • 即便在不顯式輸出思維鏈的情況下,模型仍能通過隱式邏輯推理保持領先表現,相比顯式 CoT 推理僅有輕微下降,展現出強大的 “內化邏輯” 能力;
  • 與基礎版本 UnifiedReward 相比,加入多維度、多步驟推理帶來了多任務的全面性能躍升,驗證了 “獎勵模型也能深度思考” 的價值。

消融實驗:三階段訓練策略缺一不可

該工作進行了系統的消融實驗,驗證三階段訓練范式中每一步的獨立貢獻:

  • 冷啟動階段:模型學會了 CoT 推理的結構,但對獎勵預測的準確性仍較有限;
  • 拒絕采樣階段:通過篩除推理錯誤樣本,顯著提升了模型對 “正確思維鏈” 的偏好,有效增強了模型的穩定性與泛化性;
  • GRPO 階段:提升幅度最大,模型聚焦于錯誤推理樣本,通過多路徑推理探索,逐步收斂至更精確的推理過程,體現出該階段對 “推理糾錯” 的關鍵作用。
  • 無推理路徑的 GRPO 版本效果顯著下降。我們進一步驗證:若去除 CoT 推理、讓獎勵模型僅對最終答案進行 GRPO 強化,雖然略優于 baseline,但提升比較有限。說明僅優化結果遠不足以驅動深層推理能力的形成。

結論:顯式建模思維鏈推理路徑,是強化獎勵模型泛化與魯棒性的關鍵。GRPO 訓練階段之所以有效,根源在于 “強化正確推理過程”,而非僅僅是 “強化正確答案”。





定性效果展示

該工作在多種視覺任務中對模型進行了案例測試,展現出其按任務定制評估維度的能力。通過對圖像、視頻或答案進行細粒度、多維度打分,并基于各維度總分進行整體判斷。此設計有效緩解了多模態模型中常見的 “推理過程與最終評分語義脫節” 問題,顯著提升了評估的一致性與可信度。













四:總結

UnifiedReward-Think 展示了獎勵模型的未來方向 —— 不僅僅是一個 “打分器”,而是一個具備認知理解、邏輯推理與可解釋輸出能力的智能評估系統。

目前,該項目已全面開源:包括模型、數據集、訓練腳本與評測工具,歡迎社區研究者探索、復現與應用。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
央視又誕生了一位美女主持人,其漂亮大氣的程度絲毫不輸于馬凡舒

央視又誕生了一位美女主持人,其漂亮大氣的程度絲毫不輸于馬凡舒

阿廢冷眼觀察所
2025-05-13 13:21:54
賺翻了?利物浦3500萬歐敲定今夏首簽!德甲冠軍級飛翼接替阿諾德

賺翻了?利物浦3500萬歐敲定今夏首簽!德甲冠軍級飛翼接替阿諾德

我愛英超
2025-05-13 21:08:06
科爾:巴特勒本場沒有足夠侵略性,當然我也沒看到什么好機會

科爾:巴特勒本場沒有足夠侵略性,當然我也沒看到什么好機會

懂球帝
2025-05-13 14:53:04
俄方竟稱英法德領導人在火車上吸毒?澤連斯基確認去土耳其

俄方竟稱英法德領導人在火車上吸毒?澤連斯基確認去土耳其

項鵬飛
2025-05-12 20:49:01
再擊落29架!巴總理:敵人已屈服,中國武器一戰封神,美媒驚嘆

再擊落29架!巴總理:敵人已屈服,中國武器一戰封神,美媒驚嘆

紓瑤
2025-05-12 19:04:27
央視網都出來整活了!網友:“媽媽,孩子在外沒給你丟人”

央視網都出來整活了!網友:“媽媽,孩子在外沒給你丟人”

有趣的火烈鳥
2025-05-11 15:44:06
浙江省文化廣電和旅游廳黨組書記、廳長

浙江省文化廣電和旅游廳黨組書記、廳長

男女那點事兒兒
2025-05-13 14:43:30
狀元簽換字母哥?美媒送獨行俠3方交易方案:攜手歐文組3巨頭爭冠

狀元簽換字母哥?美媒送獨行俠3方交易方案:攜手歐文組3巨頭爭冠

鍋子籃球
2025-05-13 23:06:11
聯盟攤牌了,弗拉格直接保送獨行俠組三巨頭,肖華吃相太難看了!

聯盟攤牌了,弗拉格直接保送獨行俠組三巨頭,肖華吃相太難看了!

田先生籃球
2025-05-13 08:30:19
大S死因愈演愈烈,國外醫護人員曝原因!小S女兒被曝奪走大S遺物

大S死因愈演愈烈,國外醫護人員曝原因!小S女兒被曝奪走大S遺物

大雙
2025-05-12 22:13:48
天降大喜,3生肖喜事接踵而至,機遇降臨,富貴牢牢抓在手中

天降大喜,3生肖喜事接踵而至,機遇降臨,富貴牢牢抓在手中

人閒情事
2025-05-13 16:55:30
汪峰怎么能生出這么漂亮的女兒!五官眉清目秀的,真是美絕了!

汪峰怎么能生出這么漂亮的女兒!五官眉清目秀的,真是美絕了!

阿廢冷眼觀察所
2025-05-05 15:43:43
同樣“學術拼爹”,同樣轟動全國,為何重慶大學火速免職,中科院卻毫無動靜?

同樣“學術拼爹”,同樣轟動全國,為何重慶大學火速免職,中科院卻毫無動靜?

學術那些事兒
2025-05-13 09:05:55
輸球輸人!北京球迷賽后集體辱罵孫銘徽,然而他卻主導決勝期!

輸球輸人!北京球迷賽后集體辱罵孫銘徽,然而他卻主導決勝期!

籃球資訊達人
2025-05-13 02:37:31
重大突破!中國電池公司獲英國百億支持!

重大突破!中國電池公司獲英國百億支持!

電動知家
2025-05-13 19:17:42
最惡心的一集!螢火蟲漫展的二次元成為了情色流量的一環

最惡心的一集!螢火蟲漫展的二次元成為了情色流量的一環

手談姬
2025-05-12 19:03:36
德科:亞馬爾的續約沒問題,巴薩要引進像他和拉菲尼亞這樣的球員

德科:亞馬爾的續約沒問題,巴薩要引進像他和拉菲尼亞這樣的球員

雷速體育
2025-05-13 22:36:19
59歲郭富城再做爸爸?方媛肚凸疑似懷第3胎

59歲郭富城再做爸爸?方媛肚凸疑似懷第3胎

陳意小可愛
2025-05-13 13:31:48
iPhone16Pro降價殺瘋了!二手商哭暈、黃牛跑路、國產旗艦慌不慌

iPhone16Pro降價殺瘋了!二手商哭暈、黃牛跑路、國產旗艦慌不慌

時尚的弄潮
2025-05-12 14:43:03
郭德綱沒有說錯,旗袍還真有開叉到胳肢窩的,竟然還挺好看!

郭德綱沒有說錯,旗袍還真有開叉到胳肢窩的,竟然還挺好看!

草莓解說體育
2025-05-05 00:00:10
2025-05-13 23:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10480文章數 142309關注度
往期回顧 全部

科技要聞

京東外賣首戰業績如何?創新業務狂攬57億

頭條要聞

老人住底樓過道4個月被女兒拒之門外 女婿:不可能贍養

頭條要聞

老人住底樓過道4個月被女兒拒之門外 女婿:不可能贍養

體育要聞

離開曼聯,他在馬拉多納的城市成為明星

娛樂要聞

張柏芝母親節上熱搜!3個兒子引熱議

財經要聞

老股民被收割670萬 殺豬盤牽出20億大案

汽車要聞

或2027年發布 全新寶馬1系假想圖曝光

態度原創

教育
親子
健康
本地
手機

教育要聞

歐洲頂尖大學訪問C9,參觀了國家實驗室

親子要聞

說的好像有點道理~

唇皰疹和口腔潰瘍是"同伙"嗎?

本地新聞

春色滿城關不住|溪水浣青苔 鐘乳洞藏多少光陰

手機要聞

國補價3499元!魅族21 PRO Flyme鈦好用版發布:用上24K純金

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 黄平县| 江都市| 定日县| 肇东市| 汉川市| 北川| 明水县| 辛集市| 新建县| 平南县| 德化县| 安福县| 南漳县| 泗阳县| 苏尼特左旗| 泰和县| 左权县| 伊吾县| 林芝县| 龙州县| 边坝县| 望谟县| 湛江市| 台东市| 绿春县| 鹤壁市| 开鲁县| 渭南市| 阳西县| 郎溪县| 乳源| 沿河| 舒城县| 金昌市| 宜春市| 清水县| 华安县| 长寿区| 白山市| 沾益县| 铜陵市|