99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

用多模態LLM超越YOLOv3!強化學習突破多模態感知極限|開源

0
分享至

超越YOLOv3、Faster-RCNN,首個在COCO2017 val set上突破30AP的純多模態開源LLM來啦!

華中科技大學、北京郵電大學等多所高校研究團隊共同推出的Perception-R1(PR1),在視覺推理中最基礎的感知層面,探究rule-based RL能給模型感知pattern帶來的增益。

PR1重點關注當下主流的純視覺(計數,通用目標檢測)以及視覺語言(grounding,OCR)任務,實驗結果展現出在模型感知策略上的巨大潛力。



目前論文和代碼模型均已開源,作者希望其工作能給社區提供一個強大的baseline來支持后續研究。

眼見為實:為何AI視覺感知需要一場革命

隨著OpenAI o3的出現,大模型競賽也正式進入以“視覺推理”為代表的下半場,從GPT-4V到如今的o3,兩年時間,人工智能正在迅速改變人與世界互動的方式,而這場革命在很大程度上依賴于AI理解視覺信息的能力。

從自動駕駛汽車在復雜的街道上導航,到醫療AI從掃描圖像中診斷疾病,甚至是整理照片庫的應用程序,視覺感知都是基礎。

多模態大語言模型(MLLM),如OpenAI的GPT-4o、Google的Gemini,以及開源的Qwen-VL和LLaVA,代表了巨大的進步。這些模型將語言模型(LLM)的語言理解能力與處理圖像的能力相結合,使我們能夠與AI“交談”關于圖片的內容。詢問它們圖片中有什么,它們通常能告訴你。

然而,在識別物體和真正以細致入微的理解和邏輯感知視覺世界之間存在微妙的差異。雖然MLLM在一般的視覺問答方面越來越出色,但它們在需要精確物體定位、準確計數多個物體、在復雜布局中完美閱讀文本或執行復雜視覺推理的任務上常常表現不佳。這就像知道圖片中有一只貓和能夠精確指出它的耳朵、計算它的胡須或理解它與其他物體的互動之間的區別。

強化學習的崛起與Perception-R1的誕生

強化學習(Reinforcement Learning, RL)引發了語言模型的范式轉變。像RLHF(來自人類反饋的強化學習)和基于規則的RL等技術,在DeepSeek-R1中被用來解鎖 emergent reasoning 能力,推動LLM向更強的推理能力發展。

這引出了一個問題:強化學習能否為MLLM的視覺感知能力帶來類似的革命?

早期的嘗試顯示出希望,但并非通用的成功。簡單地將語言領域的RL技術應用于視覺任務并不總能產生預期的收益。這暗示視覺感知可能遵循與純語言不同的規則。

Perception-R1 應運而生。由華科,北郵以及JHU等高校的研究人員聯合開發的開創性框架,如論文中所描述的那樣這種方法回歸到基本原理,探索如何有效地將基于規則的強化學習定制到MLLM視覺感知的獨特挑戰中。這不僅僅是讓MLLM看起來更好,而是通過學習最佳的“感知策略”(Perception Policy)來教導它們更智能地看。

Perception-R1框架:工作原理

Perception-R1 不是從頭開始構建一個新的MLLM,而是一個后訓練框架,旨在通過基于規則的強化學習顯著增強現有 capable MLLM(如Qwen2-VLInstruct-2B)的視覺感知能力

什么是“感知策略”?

“感知策略”可以視為MLLM處理視覺任務的內部策略,具體包括以下步驟:

  1. 從圖像中提取和理解相關的視覺細節。
  2. 基于這種視覺理解執行邏輯操作(例如,比較位置、識別實例、識別文本)
  3. 以正確的格式生成所需的輸出(例如,邊界框坐標、計數、轉錄文本)

Perception-R1 使用一種名為Group Relative Policy Optimization(GRPO)的強化學習技術來優化這一策略。GRPO 曾在DeepSeek-R1中取得成功,其工作原理如下(簡版)



GRPO原理公式:

  1. Rollout(多次嘗試):要求模型多次生成輸出(例如,8次)。由于生成中的隨機性(由溫度參數控制),每次輸出可能略有不同。
  2. 獎勵建模:根據明確的評分標準(獎勵函數)評估每次嘗試。例如,對于邊界框任務,使用Intersection over Union(IoU)衡量模型輸出與正確答案的重疊程度。
  3. 相對比較:GRPO 通過比較多次嘗試的獎勵分數,計算平均值。優于平均水平的嘗試獲得正“優勢”,低于平均水平的獲得負“優勢”。
  4. 策略更新:利用這些相對優勢更新模型的策略,增加生成高獎勵輸出的概率,減少低獎勵輸出的概率。
  5. 重復優化:在大量示例上重復此過程,逐步優化感知策略。

具體框架如下:



△Perception-R1 架構示意圖

做好視覺任務的關鍵:獎勵工程(Reward Modeling)

在強化學習中,獎勵函數至關重要,它是指導學習過程的核心信號。視覺感知任務通常具有直接、可量化的 ground truth,Perception-R1 利用這一點設計了基于規則的獎勵函數,總獎勵由兩部分組成:

  1. 格式獎勵:檢查輸出是否符合預期結構。例如,邊界框任務要求輸出
  2. 為格式,正確則得+1分,錯誤則扣-1分。
  3. 答案獎勵:衡量感知的正確性,使用任務特定的指標:
  • 視覺定位(RefCOCO):預測邊界框與 ground truth 的 IoU。
  • 視覺計數(PixMo-Count):將任務重新定義為點檢測后計數,獎勵基于預測點與ground truth點的歐幾里得距離。
  • 光學字符識別(OCR - PageOCR):預測文本與 ground truth 的編輯距離(Levenshtein distance)

多主體獎勵匹配的挑戰與解決方案

對于涉及多個實例的任務(如物體檢測和計數),如何匹配預測結果與 ground truth 是一個難題。Perception-R1 采用二分圖匹配解決:

  • 將預測結果和 ground truth 視為兩組點。
  • 計算每對之間的潛在獎勵(例如,IoU)
  • 使用匈牙利算法找到總獎勵最大的最優匹配。



這確保了獎勵計算基于最佳對應關系,為多物體感知任務提供了更準確的學習信號。最終總獎勵為:



實驗結果:Perception-R1的突破性表現

Perception-R1 的實際表現如何?研究人員在一套標準視覺感知基準上對其進行了評估,并將其與強大的基準 MLLM(如原始 Qwen2-VL-2B-Instruct)進行了比較,甚至與只為特定任務設計的專門 “專家 “模型進行了比較。

visual grounding任務(RefCOCO/+/g)



△visual grounding評測

OCR任務(PageOCR)



△PageOCR評測

視覺計數任務(Pixmo-Count)以及目標檢測任務(COCO2017)



△視覺計數和目標檢測評測

通用圖像理解(general image understanding)



△image understanding and reasoning 評測

重要消融實驗

Perception-R1也進行了全面的消融實驗來探究現階段rule-based RL對perception policy learning的有效性會受到哪些方面影響,研究人員詳細評測了reward matching,是否使用顯式的thinking以及SFT與RL優劣的問題都進行了深刻的探討,接著Perception-R1也展示其良好的可擴展特性,為后續大規模scale up提供了實驗驗證。



△Perception-R1的可擴展性實驗

結論:邁向更加智能的AI視覺感知

Perception-R1 表明,當強化學習被精心適配到視覺任務的獨特特性時,它可以成為教導大模型更準確、更邏輯地“看”的強大工具。通過優化感知策略,該框架推動了MLLM在物體檢測、計數和OCR等任務上的能力邊界。

盡管真正的視覺“頓悟”仍需探索,Perception-R1奠定了關鍵基礎。它挑戰了視覺任務必須依賴語言推理的假設,并強調了任務復雜性對RL效果的重要性。

隨著模型規模擴大和更具挑戰性的基準出現,Perception-R1的原則可能在構建下一代智能感知AI系統中發揮關鍵作用。

論文鏈接:https://arxiv.org/pdf/2504.07954
代碼鏈接:https://github.com/linkangheng/PR1博客鏈接:https://medium.com/@jenray1986/perception-r1-reinventing-ai-vision-with-reinforcement-learning-253bf3e77657

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
滿了!長沙40元一晚的青年旅舍已被提前到達的游客搶占,00后游客:圖的是氛圍

滿了!長沙40元一晚的青年旅舍已被提前到達的游客搶占,00后游客:圖的是氛圍

瀟湘晨報
2025-04-30 21:39:46
上海:為國家試制度 讓開放不停步

上海:為國家試制度 讓開放不停步

看看新聞Knews
2025-05-03 19:01:10
女生之間的聊天尺度有多大?哈哈,全都是虎狼之詞啊!

女生之間的聊天尺度有多大?哈哈,全都是虎狼之詞啊!

書畫藝術收藏
2025-04-22 19:40:04
上海女博士在家8年未出門,警察破門后,屋內景象讓人傻眼

上海女博士在家8年未出門,警察破門后,屋內景象讓人傻眼

蘭姐說故事
2025-04-28 10:00:09
江西一教師的家火了,僅“樓道一整排鞋柜”就無數人效仿,真高級

江西一教師的家火了,僅“樓道一整排鞋柜”就無數人效仿,真高級

時尚舒適家
2025-04-27 10:25:46
協和醫學院現任領導團隊一覽表

協和醫學院現任領導團隊一覽表

鬼菜生活
2025-05-02 20:14:37
我們對外聲稱是世界上最安全的國家,但是我們吃的東西安全嗎?

我們對外聲稱是世界上最安全的國家,但是我們吃的東西安全嗎?

逍遙論經
2025-03-05 09:04:57
杰拉德酒后失態視頻被曝光,言語粗俗卻表達對流浪者的深愛

杰拉德酒后失態視頻被曝光,言語粗俗卻表達對流浪者的深愛

雷速體育
2025-05-03 22:04:07
過安檢能讓多少人“身敗名裂”?網友分享太炸裂,一看一個不吱聲

過安檢能讓多少人“身敗名裂”?網友分享太炸裂,一看一個不吱聲

奇特短尾矮袋鼠
2024-06-26 20:24:41
友好醫院事件中的五大輸家,最慘的并不是肖副主任

友好醫院事件中的五大輸家,最慘的并不是肖副主任

辣條小劇場
2025-04-29 03:33:26
中國不挽留,美國也不收了,李嘉誠終于認了!

中國不挽留,美國也不收了,李嘉誠終于認了!

奇思妙想生活家
2025-04-24 23:46:51
中美關稅戰打到現在,是中國不跪?恰恰相反,是中國不許美國下跪

中美關稅戰打到現在,是中國不跪?恰恰相反,是中國不許美國下跪

近史博覽
2025-04-30 16:49:39
2-1!巴薩客場逆轉:西甲7分領跑,下周戰國米+皇馬,全勝或拿2冠

2-1!巴薩客場逆轉:西甲7分領跑,下周戰國米+皇馬,全勝或拿2冠

體育知多少
2025-05-04 05:39:21
長壽的根本是脾好!一個中成藥健脾和胃、生氣血,補足后天更長壽

長壽的根本是脾好!一個中成藥健脾和胃、生氣血,補足后天更長壽

鬼菜生活
2025-05-03 10:43:29
湖北大一女生輸液過敏去世,醫院回應稱無過錯,老護士道出關鍵

湖北大一女生輸液過敏去世,醫院回應稱無過錯,老護士道出關鍵

叨嘮
2025-05-04 04:03:55
河南省委書記、省長共同會見劉慶峰,有個關鍵詞

河南省委書記、省長共同會見劉慶峰,有個關鍵詞

政知新媒體
2025-05-01 07:06:56
《哪吒2》票房沖破158億:即將超越《泰坦尼克號》

《哪吒2》票房沖破158億:即將超越《泰坦尼克號》

3DM游戲
2025-05-03 16:16:03
程瀟,上個音樂節就這么水靈靈的出神圖

程瀟,上個音樂節就這么水靈靈的出神圖

小椰的奶奶
2025-05-04 03:25:59
爭奪超480萬獎金!世錦賽亂了:世界第1出局 中國天才PK3冠王爭冠

爭奪超480萬獎金!世錦賽亂了:世界第1出局 中國天才PK3冠王爭冠

寒律
2025-05-04 06:29:11
再婚8年,丈夫老實憨厚,鄰居卻悄悄提醒:你男人全身都是秘密

再婚8年,丈夫老實憨厚,鄰居卻悄悄提醒:你男人全身都是秘密

烙任情感
2025-05-03 07:27:18
2025-05-04 07:28:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10422文章數 176129關注度
往期回顧 全部

科技要聞

特朗普下手,英偉達對華“特供版”要改

頭條要聞

澤連斯基:自上個月與特朗普在梵蒂岡會晤 特朗普變了

頭條要聞

澤連斯基:自上個月與特朗普在梵蒂岡會晤 特朗普變了

體育要聞

北京請神馬布里?許利民真有“玄學”!

娛樂要聞

金秀賢遭多家品牌起訴 索賠近60億韓元

財經要聞

巴菲特談貿易、AI、股市、房地產!

汽車要聞

易三方科技體驗日·北京站上演硬核駕控

態度原創

家居
親子
本地
手機
公開課

家居要聞

意式輕奢 低飽和質感美學

親子要聞

五一出行要牢記~

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

手機要聞

消息稱iPhone 17 Air超薄犧牲續航,蘋果或“復活”智能電池殼

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 临邑县| 杭锦后旗| 桃园县| 榆林市| 葫芦岛市| 宜州市| 台湾省| 石门县| 奎屯市| 竹北市| 共和县| 赞皇县| 通海县| 南郑县| 平泉县| 乌拉特中旗| 思茅市| 乃东县| 察雅县| 吉林市| 淳化县| 尼勒克县| 清苑县| 忻城县| 福建省| 昭平县| 池州市| 新巴尔虎右旗| 余江县| 闽清县| 正宁县| 独山县| 定安县| 郑州市| 当涂县| 泰兴市| 内丘县| 清水县| 龙山县| 兴山县| 瓦房店市|