超越YOLOv3、Faster-RCNN,首個在COCO2017 val set上突破30AP的純多模態開源LLM來啦!
華中科技大學、北京郵電大學等多所高校研究團隊共同推出的Perception-R1(PR1),在視覺推理中最基礎的感知層面,探究rule-based RL能給模型感知pattern帶來的增益。
PR1重點關注當下主流的純視覺(計數,通用目標檢測)以及視覺語言(grounding,OCR)任務,實驗結果展現出在模型感知策略上的巨大潛力。
目前論文和代碼模型均已開源,作者希望其工作能給社區提供一個強大的baseline來支持后續研究。
眼見為實:為何AI視覺感知需要一場革命
隨著OpenAI o3的出現,大模型競賽也正式進入以“視覺推理”為代表的下半場,從GPT-4V到如今的o3,兩年時間,人工智能正在迅速改變人與世界互動的方式,而這場革命在很大程度上依賴于AI理解視覺信息的能力。
從自動駕駛汽車在復雜的街道上導航,到醫療AI從掃描圖像中診斷疾病,甚至是整理照片庫的應用程序,視覺感知都是基礎。
多模態大語言模型(MLLM),如OpenAI的GPT-4o、Google的Gemini,以及開源的Qwen-VL和LLaVA,代表了巨大的進步。這些模型將語言模型(LLM)的語言理解能力與處理圖像的能力相結合,使我們能夠與AI“交談”關于圖片的內容。詢問它們圖片中有什么,它們通常能告訴你。
然而,在識別物體和真正以細致入微的理解和邏輯感知視覺世界之間存在微妙的差異。雖然MLLM在一般的視覺問答方面越來越出色,但它們在需要精確物體定位、準確計數多個物體、在復雜布局中完美閱讀文本或執行復雜視覺推理的任務上常常表現不佳。這就像知道圖片中有一只貓和能夠精確指出它的耳朵、計算它的胡須或理解它與其他物體的互動之間的區別。
強化學習的崛起與Perception-R1的誕生
強化學習(Reinforcement Learning, RL)引發了語言模型的范式轉變。像RLHF(來自人類反饋的強化學習)和基于規則的RL等技術,在DeepSeek-R1中被用來解鎖 emergent reasoning 能力,推動LLM向更強的推理能力發展。
這引出了一個問題:強化學習能否為MLLM的視覺感知能力帶來類似的革命?
早期的嘗試顯示出希望,但并非通用的成功。簡單地將語言領域的RL技術應用于視覺任務并不總能產生預期的收益。這暗示視覺感知可能遵循與純語言不同的規則。
Perception-R1 應運而生。由華科,北郵以及JHU等高校的研究人員聯合開發的開創性框架,如論文中所描述的那樣這種方法回歸到基本原理,探索如何有效地將基于規則的強化學習定制到MLLM視覺感知的獨特挑戰中。這不僅僅是讓MLLM看起來更好,而是通過學習最佳的“感知策略”(Perception Policy)來教導它們更智能地看。
Perception-R1框架:工作原理
Perception-R1 不是從頭開始構建一個新的MLLM,而是一個后訓練框架,旨在通過基于規則的強化學習顯著增強現有 capable MLLM(如Qwen2-VLInstruct-2B)的視覺感知能力。
什么是“感知策略”?
“感知策略”可以視為MLLM處理視覺任務的內部策略,具體包括以下步驟:
- 從圖像中提取和理解相關的視覺細節。
- 基于這種視覺理解執行邏輯操作(例如,比較位置、識別實例、識別文本)
- 以正確的格式生成所需的輸出(例如,邊界框坐標、計數、轉錄文本)
Perception-R1 使用一種名為Group Relative Policy Optimization(GRPO)的強化學習技術來優化這一策略。GRPO 曾在DeepSeek-R1中取得成功,其工作原理如下(簡版):
GRPO原理公式:
- Rollout(多次嘗試):要求模型多次生成輸出(例如,8次)。由于生成中的隨機性(由溫度參數控制),每次輸出可能略有不同。
- 獎勵建模:根據明確的評分標準(獎勵函數)評估每次嘗試。例如,對于邊界框任務,使用Intersection over Union(IoU)衡量模型輸出與正確答案的重疊程度。
- 相對比較:GRPO 通過比較多次嘗試的獎勵分數,計算平均值。優于平均水平的嘗試獲得正“優勢”,低于平均水平的獲得負“優勢”。
- 策略更新:利用這些相對優勢更新模型的策略,增加生成高獎勵輸出的概率,減少低獎勵輸出的概率。
- 重復優化:在大量示例上重復此過程,逐步優化感知策略。
具體框架如下:
△Perception-R1 架構示意圖
做好視覺任務的關鍵:獎勵工程(Reward Modeling)
在強化學習中,獎勵函數至關重要,它是指導學習過程的核心信號。視覺感知任務通常具有直接、可量化的 ground truth,Perception-R1 利用這一點設計了基于規則的獎勵函數,總獎勵由兩部分組成:
- 格式獎勵:檢查輸出是否符合預期結構。例如,邊界框任務要求輸出
- 為格式,正確則得+1分,錯誤則扣-1分。
- 答案獎勵:衡量感知的正確性,使用任務特定的指標:
- 視覺定位(RefCOCO):預測邊界框與 ground truth 的 IoU。
- 視覺計數(PixMo-Count):將任務重新定義為點檢測后計數,獎勵基于預測點與ground truth點的歐幾里得距離。
- 光學字符識別(OCR - PageOCR):預測文本與 ground truth 的編輯距離(Levenshtein distance)
多主體獎勵匹配的挑戰與解決方案
對于涉及多個實例的任務(如物體檢測和計數),如何匹配預測結果與 ground truth 是一個難題。Perception-R1 采用二分圖匹配解決:
- 將預測結果和 ground truth 視為兩組點。
- 計算每對之間的潛在獎勵(例如,IoU)
- 使用匈牙利算法找到總獎勵最大的最優匹配。
這確保了獎勵計算基于最佳對應關系,為多物體感知任務提供了更準確的學習信號。最終總獎勵為:
實驗結果:Perception-R1的突破性表現
Perception-R1 的實際表現如何?研究人員在一套標準視覺感知基準上對其進行了評估,并將其與強大的基準 MLLM(如原始 Qwen2-VL-2B-Instruct)進行了比較,甚至與只為特定任務設計的專門 “專家 “模型進行了比較。
visual grounding任務(RefCOCO/+/g)
△visual grounding評測
OCR任務(PageOCR)
△PageOCR評測
視覺計數任務(Pixmo-Count)以及目標檢測任務(COCO2017)
△視覺計數和目標檢測評測
通用圖像理解(general image understanding)
△image understanding and reasoning 評測
重要消融實驗
Perception-R1也進行了全面的消融實驗來探究現階段rule-based RL對perception policy learning的有效性會受到哪些方面影響,研究人員詳細評測了reward matching,是否使用顯式的thinking以及SFT與RL優劣的問題都進行了深刻的探討,接著Perception-R1也展示其良好的可擴展特性,為后續大規模scale up提供了實驗驗證。
△Perception-R1的可擴展性實驗
結論:邁向更加智能的AI視覺感知
Perception-R1 表明,當強化學習被精心適配到視覺任務的獨特特性時,它可以成為教導大模型更準確、更邏輯地“看”的強大工具。通過優化感知策略,該框架推動了MLLM在物體檢測、計數和OCR等任務上的能力邊界。
盡管真正的視覺“頓悟”仍需探索,Perception-R1奠定了關鍵基礎。它挑戰了視覺任務必須依賴語言推理的假設,并強調了任務復雜性對RL效果的重要性。
隨著模型規模擴大和更具挑戰性的基準出現,Perception-R1的原則可能在構建下一代智能感知AI系統中發揮關鍵作用。
論文鏈接:https://arxiv.org/pdf/2504.07954
代碼鏈接:https://github.com/linkangheng/PR1博客鏈接:https://medium.com/@jenray1986/perception-r1-reinventing-ai-vision-with-reinforcement-learning-253bf3e77657
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.