99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

類R1強化學習遷移到視覺定位!Vision-R1將圖文大模型性能提升50%

0
分享至




圖文大模型通常采用「預訓練 + 監督微調」的兩階段范式進行訓練,以強化其指令跟隨能力。受語言領域的啟發,多模態偏好優化技術憑借其在數據效率和性能增益方面的優勢,被廣泛用于對齊人類偏好。目前,該技術主要依賴高質量的偏好數據標注和精準的獎勵模型訓練來提升模型表現。然而,這一方法不僅資源消耗巨大,訓練過程仍然極具挑戰。

受到基于規則的強化學習(Rule-Based Reinforcement Learning)在 R1 上成功應用的啟發,中科院自動化研究所與中科紫東太初團隊探索了如何結合高質量指令對齊數據與類 R1 的強化學習方法,進一步增強圖文大模型的視覺定位能力。該方法首次在 Object Detection、Visual Grounding 等復雜視覺任務上,使 Qwen2.5-VL 模型實現了最高 50% 的性能提升,超越了參數規模超過 10 倍的 SOTA 模型。

目前,相關工作論文、模型及數據集代碼均已開源。



  • 論文標題:Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
  • 論文地址:https://arxiv.org/pdf/2503.18013
  • Github 倉庫:https://github.com/jefferyZhan/Griffon/tree/master/Vision-R1
  • Huggingface 倉庫:https://huggingface.co/collections/JefferyZhan/vision-r1-67e166f8b6a9ec3f6a664262

引言

目標定位任務要求模型能夠精準識別用戶輸入的任意感興趣目標,并給出精確的目標框,對圖文大模型的細粒度感知和空間理解能力提出了嚴峻挑戰。當前,圖文大模型通常將目標定位建模為文本序列預測任務,并通過大規模預訓練和指令數據的監督微調,以 Next Token Prediction 實現對不同粒度目標描述的精準定位。盡管在指代表達理解等任務上已超越傳統視覺專家模型,但在更復雜、目標密集的場景中,其視覺定位與目標檢測能力仍與專家模型存在顯著差距。

R1 的成功應用推動了對基于規則的任務級別獎勵監督的探索,使模型擺脫了對人工偏好數據標注和獎勵模型訓練的依賴。值得注意的是,視覺定位指令數據本身具有精準的空間位置標注,并與與人類對精準目標定位偏好高度一致。基于這些優勢,Vision-R1 通過設計類 R1 的強化學習后訓練框架,在任務級別監督中引入基于視覺任務評價指標的反饋獎勵信號,為增強圖文大模型的細粒度視覺定位能力提供了創新突破方向。



Vision-R1 關鍵設計示意圖

Vision Criteria-Driven Reward Function

聚焦圖文大模型目標定位問題

在文本序列的統一建模和大規模數據的自回歸訓練下,圖文大模型在目標定位任務上取得了顯著的性能提升。然而,其進一步發展仍受到三大關鍵問題的限制:(1)密集場景中的長序列預測易出現格式錯誤,(2)有效預測目標的召回率較低,(3)目標定位精度不足。

這些問題制約了模型在更復雜視覺任務上的表現。在自回歸 Token 級別的監督機制下,模型無法獲得實例級別的反饋,而直接在單目標場景下應用 GRPO 訓練方法又忽視了視覺定位任務的特性及 Completion 級別監督的優勢。

為此,研究團隊結合圖文大模型在視覺定位任務中面臨的挑戰,提出了一種基于視覺任務評價準則驅動的獎勵函數,其設計包括以下四個核心部分:

  • 框優先的預測匹配:與僅針對單個目標進行設計的方法不同,Vision-R1 采用多目標預測的統一建模方式。為了計算包含多個目標預測的獎勵,Vision-R1 首先對文本序列化的預測結果進行反序列化,提取出每個目標的預測框及其標簽,并將預測結果與真實標注進行匹配,以確保獎勵機制能夠全面衡量多目標場景下的定位質量。
  • 雙重格式獎勵:該獎勵項旨在解決密集場景下長序列預測的格式錯誤問題。對于每個預測文本序列,模型需滿足指定的模板格式(如 Qwen2.5-VL 采用的 JSON 格式),并確保目標坐標的數值正確性。僅當預測結果同時滿足格式和內容要求時,模型才能獲得獎勵 1,從而引導其生成符合標準的預測輸出。
  • 召回獎勵:該獎勵項針對有效預測目標召回率低的問題,鼓勵模型盡可能多地識別目標。具體而言,針對每個預測目標及其匹配的真實目標(GT),當兩者的 IoU 超過預設閾值 ζ 時,視為該預測有效。對于一個預測序列,其召回獎勵定義為有效預測目標數量與實際需要預測目標數量的比例,以此激勵模型提高目標的覆蓋率。



  • 精度獎勵:精度獎勵與召回獎勵協同作用,形成「1+1>2」的優化效果。其中,召回獎勵提升模型對目標的全面識別能力,而精度獎勵則確保預測的準確性。精度獎勵從單實例角度衡量預測質量,其核心目標是鼓勵模型生成高質量的邊界框。具體地,精度獎勵被定義為所有有效預測的平均 IoU 值,以直接激勵模型優化目標框的精確度:





Vision-R1 整體框架

Progressive Rule Refinement Strategy

實現持續性能提升

在目標定位任務中,預測高質量(高 IoU)的目標框始終是一個挑戰,尤其是在密集場景和小目標情況下。這種困難可能導致模型在同組預測中獎勵差異較小,從而影響優化效果。針對這一問題,研究團隊提出了漸進式規則調整策略,該策略通過在訓練過程中動態調整獎勵計算規則,旨在實現模型的持續性能提升。該策略主要包括兩個核心部分:

差異化策略:該策略的目標是擴大預測結果與實際獎勵之間的映射差異。具體而言,通過懲罰低召回率(Recall)和低平均 IoU 的預測,并對高召回率和高 IoU 的預測給予較高獎勵,從而鼓勵模型生成更高質量的預測,尤其是在當前能夠達到的最佳預測上獲得最大獎勵。這一策略引導模型在訓練過程中逐漸提高預測精度,同時避免低質量預測的獎勵過高,促進其優化。具體實現如下:



階段漸近策略:類似于許多有效的學習方法,給初學者設定容易實現的目標并逐步提升獎勵難度是一個常見且行之有效的策略。在 Vision-R1 中,訓練過程被劃分為初學階段和進階階段,并通過逐步調整閾值 ζ 來實現獎勵規則的逐漸變化。具體來說:

  • 初學階段(Beginner Phase): 在這一階段,設置較低的 ζ 閾值(0.5/0.75),給予模型相對寬松的獎勵標準,幫助其快速入門并學習基礎的定位能力。
  • 進階階段(Advanced Phase): 隨著訓練的深入,逐步提高 ζ 閾值,增加標準要求,以促使模型達到更高的準確度,避免模型依賴簡單策略,從而持續推動模型性能的提升。

不同模型的域內外目標檢測評測

為全面評估 Vision-R1 的效果,研究團隊選擇了近期定位能力大幅提升的 Qwen2.5-VL-7B 模型和定位能力突出的 Griffon-G-7B 模型,在更有挑戰的經典目標檢測數據集 COCO 和多樣場景的 ODINW-13 上進行測試,以展現方法對不同定位水平模型的適用性。



經典 COCO/ODINW 數據集上 Vision-R1 方法相較于基線模型性能的提升

實驗結果表明,無論基礎性能如何,與基線模型相比這些模型在 Vision-R1 訓練后性能大幅提升,甚至超過同系列 SOTA 模型,進一步接近了定位專家模型。

研究團隊還在模型沒有訓練的域外定位數據集上進行測試,Vision-R1 在不同模型的四個數據集上取得了平均 6% 的性能提升,充分論證了方法的泛化性。



域外數據集上 Vision-R1 方法相較于基線模型性能的提升

模型通用問答能力評測

研究團隊進一步評估了模型在非定位等通用任務上的性能,以驗證方法是否能在少量影響模型通用能力的情況下,大幅度提升模型的視覺定位能力。研究團隊發現,Vision-R1 近乎不損失模型的通用能力,在通用問答、圖表問答等評測集上模型實現了與基準模型基本一致的性能。



通用問答數據集上 Vision-R1 方法與基線模型性能的比較

可視化分析

研究團隊提供了在 Qwen2.5-VL-7B 模型上使用 Vision-R1 后在多個場景下的目標檢測可視化結果。如結果所示,Vision-R1 訓練后,模型能夠更好召回所感興趣的物體,并進一步提升定位的精度。



Vision-R1 訓練模型與基準模型檢測結果可視化

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
張蘭代理律師解讀馬筱梅判決書,稱其起訴了幾十人,張蘭轉發力挺

張蘭代理律師解讀馬筱梅判決書,稱其起訴了幾十人,張蘭轉發力挺

檸檬有娛樂
2025-05-05 10:00:02
許歷農去世,享年106歲

許歷農去世,享年106歲

新京報
2025-05-04 17:22:33
這才是中年男人“反油膩”三大秘訣:不穿polo、不姨化、不露皮帶

這才是中年男人“反油膩”三大秘訣:不穿polo、不姨化、不露皮帶

時尚搭配師Nicole
2025-04-27 23:12:41
馬自達EZ-60殺瘋了!48小時盲訂破萬,20萬級新能源SUV還有活路嗎

馬自達EZ-60殺瘋了!48小時盲訂破萬,20萬級新能源SUV還有活路嗎

幸福沈陽人
2025-05-05 12:30:35
58歲劉嘉玲晨跑引爭議:穿緊身褲不遮臀部,被網友點評“沒一點老人樣”

58歲劉嘉玲晨跑引爭議:穿緊身褲不遮臀部,被網友點評“沒一點老人樣”

LadyDaily
2025-03-15 18:07:56
馬麗崩潰哭訴上熱搜,評論區罵聲一片,郭德綱的話,終于有人信了

馬麗崩潰哭訴上熱搜,評論區罵聲一片,郭德綱的話,終于有人信了

寒士之言本尊
2025-05-05 13:03:12
外線沒譜!狄龍季后賽場均12.3分 命中率44.4%&三分34.5%

外線沒譜!狄龍季后賽場均12.3分 命中率44.4%&三分34.5%

直播吧
2025-05-05 13:13:39
事態升級!貴州游船事故致3人死亡14人失蹤,曾老的話含金量上升

事態升級!貴州游船事故致3人死亡14人失蹤,曾老的話含金量上升

南南說娛
2025-05-05 09:52:35
女人會這么做,已經讓別人“搞”過很久了,你還不知道嗎?

女人會這么做,已經讓別人“搞”過很久了,你還不知道嗎?

故衣談歷史
2025-04-27 11:37:42
毀滅性打擊!烏克蘭空軍摧毀巴赫穆特俄軍師級指揮所!

毀滅性打擊!烏克蘭空軍摧毀巴赫穆特俄軍師級指揮所!

國際情爆猿
2025-05-04 15:57:56
新華社消息|美國加州州長:加州繼續對中國“敞開貿易大門”

新華社消息|美國加州州長:加州繼續對中國“敞開貿易大門”

新華社
2025-05-04 10:29:59
央視曝光:都是假的!價格不菲卻銷量驚人,很多人每天吃

央視曝光:都是假的!價格不菲卻銷量驚人,很多人每天吃

觀今言史
2025-05-04 10:10:03
希拉里預言成真:若特朗普當選總統,美國民主和烏克蘭將“終結”

希拉里預言成真:若特朗普當選總統,美國民主和烏克蘭將“終結”

阿離家居
2025-05-05 00:26:34
現在手握大量現金的人,要偷笑了,原因有這兩點

現在手握大量現金的人,要偷笑了,原因有這兩點

娛樂八卦木木子
2025-04-30 01:50:43
巴菲特,投資過兩只中國股票,
一只是比亞迪,
另一只是中國石油

巴菲特,投資過兩只中國股票, 一只是比亞迪, 另一只是中國石油

風風順
2025-05-03 07:05:42
原來這才是桃乃木最純的一面,看完她的寫真我信了

原來這才是桃乃木最純的一面,看完她的寫真我信了

草莓解說體育
2025-05-05 12:11:22
睡不著時閉目養神,有休息效果嗎?

睡不著時閉目養神,有休息效果嗎?

新浪財經
2025-05-04 11:01:05
王凱退圈回歸素人?給再多錢也請不動…

王凱退圈回歸素人?給再多錢也請不動…

毒舌八卦
2025-05-04 14:20:55
《哪吒2》票房沖破158億:即將超越《泰坦尼克號》

《哪吒2》票房沖破158億:即將超越《泰坦尼克號》

3DM游戲
2025-05-03 16:16:03
比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

影史侃談
2025-03-16 22:40:07
2025-05-05 13:48:52
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10436文章數 142301關注度
往期回顧 全部

科技要聞

這3款新 iPhone,可能會改變蘋果的未來

頭條要聞

外貿貨不出口美國了迎"潑天流量" 上海市民瘋狂"撿漏"

頭條要聞

外貿貨不出口美國了迎"潑天流量" 上海市民瘋狂"撿漏"

體育要聞

當年的阿森納小球童,要踢歐冠決賽了

娛樂要聞

林心如霍建華一家三口手牽手散步好有愛

財經要聞

巴菲特老矣,價值投資尚能飯否?

汽車要聞

小米SU7的真實續航到底有多少?

態度原創

房產
旅游
教育
公開課
軍事航空

房產要聞

最強書包官宣落位!海口這個片區,將徹底引爆!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

如何從寫流水賬到享受作文

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

解放軍儀仗隊紅場高唱抗日歌曲

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 五莲县| 西林县| 黎平县| 垣曲县| 呈贡县| 岢岚县| 高安市| 德保县| 孝昌县| 罗江县| 陇川县| 综艺| 包头市| 罗源县| 广昌县| 农安县| 乐陵市| 余江县| 东山县| 杨浦区| 宿州市| 鹤岗市| 乡宁县| 娱乐| 南投县| 尉犁县| 金川县| 中山市| 济南市| 双江| 武定县| 阜阳市| 波密县| 周口市| 无锡市| 清新县| 枞阳县| 富川| 思茅市| 诏安县| 大方县|