網易首頁 > 網易號 > 正文申請入駐

One RL to See Them All？一個強化學習統一視覺-語言任務！

2025-05-27 14:13:40　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：+0、Panda

強化學習 (RL) 顯著提升了視覺-語言模型 (VLM) 的推理能力。然而，RL 在推理任務之外的應用，尤其是在目標檢測和目標定位等感知密集型任務中的應用，仍有待深入探索。

近日，國內初創公司 MiniMax 提出了V-Triune，一個視覺三重統一強化學習系統，它能使 VLM 在單一的訓練流程中同時學習視覺推理和感知任務。

論文標題：One RL to See Them All
論文地址：https://arxiv.org/pdf/2505.18129
代碼地址：https://github.com/MiniMax-AI

V-Triune 包含三個互補的組件：樣本級數據格式化(Sample-Level Data Formatting)（用以統一多樣化的任務輸入）、驗證器級獎勵計算(Verifier-Level Reward Computation)（通過專門的驗證器提供定制化獎勵）以及數據源級指標監控(Source-Level Metric Monitoring)（用以診斷數據源層面的問題）。

MiniMax 進一步引入了一種新穎的動態 IoU 獎勵，它為 V-Triune 處理的感知任務提供自適應、漸進且明確的反饋。該方法在現成的 RL 訓練框架內實現，并使用了開源的 7B 和 32B 骨干模型。由此產生的模型，MiniMax 稱之為Orsta (One RL to See Them All)，在推理和感知任務上均展現出持續的性能提升。

這種廣泛的能力很大程度上得益于其在多樣化數據集上的訓練，該數據集圍繞四種代表性的視覺推理任務（數學、謎題、圖表和科學）和四種視覺感知任務（目標定位、檢測、計數和光學字符識別 (OCR)）構建。

最終，Orsta 在 MEGA-Bench Core 基準測試中取得了顯著的進步，其不同的 7B 和 32B 模型變體性能提升范圍從 +2.1 到驚人的 +14.1，并且這種性能優勢還擴展到了廣泛的下游任務中。這些結果凸顯了 MiniMax 新提出的統一 RL 方法應用于 VLM 的有效性和可擴展性。

V-Triune：視覺三重統一強化學習系統

V-Triune 的主要目標是使用單一、統一的訓練流程，在視覺推理和感知任務上聯合訓練視覺-語言模型 (VLM)，如圖 2 所示。

該系統建立在三個核心且相互關聯的部分之上，旨在協同處理這些多樣化的任務。接下來將詳細解釋這三個核心組件，并介紹 MiniMax 新穎的動態 IoU 獎勵機制。

樣本級數據格式化

MiniMax 是如何格式化數據以支持跨感知和推理任務的統一訓練的呢？

一個主要挑戰是，不同任務可能需要不同類型的獎勵、組件和加權策略。例如，像數學、謎題和光學字符識別 (OCR) 這樣的任務，其獎勵是基于文本答案的正確性來計算的，而檢測和定位任務則依賴于空間度量，如 IoU 和邊界框格式。

在傳統的 RL 設置中，獎勵計算通常在任務級別定義。雖然這允許外部實現模塊化的獎勵函數，但在需要細粒度控制時限制了靈活性。

許多多模態任務可能包含需要不同獎勵策略的異構樣本。例如，OCR 數據可能同時包含純文本行和復雜表格，每種都需要不同的評估規則。

同樣，檢測樣本在對象數量、標注完整性或視覺難度方面可能存在顯著差異，這表明需要對獎勵行為進行樣本級的調整。

為了支持這種靈活性，MiniMax 直接在樣本級別定義獎勵配置。每個樣本指定要計算的獎勵類型、它們的相對權重以及要使用的關聯驗證器 (verifier)。這允許在訓練期間進行動態獎勵路由和細粒度加權，而無需修改核心訓練邏輯。

它還可以通過簡單調整元數據來支持課程學習 (curriculum learning) 或數據消融策略，使系統更具可擴展性和可維護性。

如圖 3 所示，MiniMax 使用 Hugging Face datasets 實現他們的數據模式，它作為所有數據源的統一接口。

通過在單個樣本級別定義 reward_model（包括獎勵類型、像 accuracy_ratio /format_ratio 這樣的權重）和 verifier（驗證器）規范，實現了對獎勵計算的細粒度控制。這使得能夠靈活且可擴展地處理各種多模態任務。

總之，樣本級格式化設計能夠將多樣化的數據集無縫集成到統一的訓練流程中，同時允許高度靈活和可擴展的獎勵控制。

驗證器級獎勵計算

與使用固定獎勵函數的方法不同，MiniMax 實現了一個獨立的、異步的獎勵服務器來生成 RL 信號，以取代固定的獎勵函數。該系統基于 FastAPI 的異步客戶端-服務器架構（圖 4）。

這種將獎勵計算與主訓練循環解耦的設計，帶來了模塊化、可擴展性、靈活性和高吞吐量等關鍵優勢，尤其便于獨立擴展和分布式處理。

獎勵計算在「驗證器級」進行：服務器將請求路由到用戶定義的驗證器，它們根據模型輸出和真實標簽計算任務獎勵。MiniMax 主要使用兩種：

MathVerifyVerifier：通過評估答案正確性來處理推理、OCR 和計數任務。
DetectionVerifier：處理檢測、定位任務，并支持動態 IoU 獎勵。

這種驗證器級架構極大地增強了系統的靈活性和模塊化，使得添加新任務或更新獎勵邏輯變得簡單，且無需修改核心訓練流程。

數據源級指標監控

在處理多任務、多源訓練時，傳統的聚合或單任務指標往往因為缺乏可追溯性以及無法反映各數據源的內在差異，而不足以深入理解模型動態或進行有效診斷。因此，MiniMax 采納了數據源級指標監控 (Source-Level Metric Monitoring) 策略。

該方法的核心是為每個訓練批次，按數據源分別記錄關鍵性能指標。這種精細化的追蹤方式具有顯著優勢：它不僅能幫助我們快速識別出表現不佳或存在問題的數據源，還能支持有針對性的調試，并有助于揭示不同數據源在學習過程中的相互作用與影響。

考慮到強化學習訓練過程可能存在的不穩定性，這種細粒度的監控對于驗證模型的穩定性和行為模式尤為重要，能夠提供比許多標準 RL 基礎設施更深入的洞察力。

具體來說，監控的關鍵指標包括：

各源獎勵值：用以追蹤不同數據集對模型訓練的貢獻及穩定性。
感知任務 IoU/mAP：按來源記錄詳細的 IoU 值（在多個閾值下）和 mAP 分數，以獲得對模型在檢測、定位等任務上收斂情況的細粒度見解。
響應長度與截斷率：通過分析輸出長度來判斷模型是否存在生成內容過于冗長或坍塌 (collapsed generation) 的問題。
反思率 (Reflection Ratio)：通過追蹤特定反思詞匯的出現頻率及其與答案正確性的關聯，來診斷模型的 “思考” 模式，例如是傾向于過度思考 (overthinking) 還是淺層響應 (superficial responses)。所有這些指標都按數據源持續記錄。

動態 IoU 獎勵

在目標檢測和視覺定位任務中，MiniMax 選擇 IoU 作為核心獎勵機制，而非直接使用 mAP。實驗表明，盡管 mAP 是評估標準，但基于閾值的 IoU 獎勵能在達到相當性能的同時，提供更易于解釋和控制的反饋信號（如圖 5a 所示），這對于指導 RL 訓練過程至關重要。

然而，設定一個固定的 IoU 閾值面臨著兩難境地。一方面，過于寬松的閾值（例如 = 0.5 ）雖然容易達成，但對于 VLM 的 RL 訓練來說可能過于模糊，無法有效區分預測質量的細微差異，甚至可能因獎勵模糊性導致模型在訓練后期性能下降。

另一方面，采用非常嚴格的閾值（例如 = 0.99 ）雖然能確保預測與真實標簽高度一致，增強感知與推理信號的統一性，并可能提升訓練穩定性，但其嚴苛性會在訓練初期引發冷啟動 (cold-start) 問題 —— 大多數早期的、不完美的預測會獲得 0 獎勵，使得模型難以學習（如圖 5b 所示）。

為了克服這一挑戰，MiniMax 設計了動態 IoU 獎勵策略。該策略借鑒了課程學習的思想，通過在訓練過程中動態調整 IoU 閾值。

? 來平衡學習效率和最終精度。具體做法是：在訓練的初始 10% 步驟中使用相對寬松的 0.85 閾值，以便模型快速入門；在接下來的 15% 步驟中提升至 0.95；最后，在訓練的剩余階段采用 0.99 的嚴格閾值，以追求最高的定位精度（如圖 6 所示）。這種漸進式的方法旨在平穩地引導模型學習，避免冷啟動，同時確保最終的高性能。

訓練方法

V-Triune 支持可擴展的數據、任務、驗證器和指標系統。不過，早期實驗表明，聯合訓練可能會導致不穩定，具體包括評估性能下降、梯度范數突然飆升、熵波動較大、響應長度突然增加，尤其是在輸出錯誤的情況下。

為了解決訓練不穩定性和可擴展性問題，MiniMax 進行了有針對性的調整，包括凍結 ViT 以防止梯度爆炸、過濾虛假圖像 token、隨機化 CoT 提示詞以及解耦評估以在大規模訓練期間管理內存。

禁用 ViT 訓練

在初始實驗中，MiniMax 的做法是通過聯合優化 ViT 和 LLM 進行全參數訓練。然而，無論超參數設置如何，檢測性能在數十步之后都會持續下降。日志分析表明梯度范數異常大且出現峰值（通常 >1），這表明不穩定源于 ViT。對此分析，MiniMax 還進行了實驗驗證。

如圖 7a 所示，聯合訓練會導致性能下降，而僅 LLM 訓練則能維持穩定的提升。僅 ViT 訓練的提升甚微，這表明強化學習的優勢主要源于更新 LLM。圖 7b 則表明，ViT 訓練產生的梯度范數顯著提高 —— 比僅 LLM 訓練高出 10 倍以上。

逐層分析（圖 7c）證實了這一點：LLM 梯度在各層之間保持穩定，而 ViT 梯度在反向傳播過程中會放大 —— 第一層的范數比最后一層高 5 到 10 倍。這種梯度爆炸會破壞訓練的穩定性，并損害視覺性能。

因此，MiniMax 選擇在后續實驗中凍結 ViT 的參數。

雖然這種不穩定性背后的根本原因仍未得到研究解釋，但 MiniMax 提供了兩個關鍵見解。

一、強化學習不僅激活了視覺 - 語言模型 (VLM) 的功能，還會強制模態對齊。當 ViT 和 LLM 聯合訓練時，視覺表征（即對齊目標）會不斷變化，導致不穩定，類似于機器學習中的概念漂移（concept drift）問題。這種動態目標會導致優化不穩定，并可能導致模型崩潰。類似于 GAN 的交替訓練（凍結一個組件的同時更新另一個組件）也許是一種解決方案。

二、ViT 的對比預訓練可能會限制其在強化學習中的適用性，因為它會鼓勵使用靜態的實例級特征，而不是強化學習任務所需的動態因果表示。為了緩解這種不匹配，可以在強化學習期間引入輔助自監督目標，以幫助 ViT 適應不斷變化的任務需求。

緩解虛假圖像特殊 token

為了實現準確的優勢估計，查詢和生成響應的 logit 向量都會重新計算，因為推理引擎返回的 logit 向量可能不精確。在前向傳遞過程中，圖像占位符（圖 8 中紅色框，出現在 “vision_end” token 之前）將被 ViT 和適配器模塊提取的視覺特征替換。然而，模型可能會錯誤地生成缺少相應特征的特殊 token（圖 8 中藍色框），例如圖像或視頻占位符 —— 尤其是在 RL-zero 設置下。

為了確保輸入特征對齊并保持訓練穩定性，在重新計算之前，會應用一個過濾步驟，將所有此類特殊 token 從 rollout 序列中移除。

CoT 提示詞池

在視覺數學任務訓練的早期階段，盡管 CoT 提示詞傳達的含義相同，但其差異可能會影響模型性能，影響準確度和響應長度等指標。為了減少這種差異，MiniMax 構建了一個 CoT 提示詞池，其中包含 10 個「讓 MiniMax 一步一步思考」的備選方案和 10 個「將答案放入 \boxed {}」的備選方案。

在訓練期間，MiniMax 會從每組中隨機選擇一個句子并附加到指令中。此策略可以減輕提示詞引起的差異，并會專門應用于使用 MathVerifyVerifier 驗證的樣本。

系統內存管理

V-Trinue 基于 Verl 實現，Verl 是一個單控制器訓練框架，它可以接近主節點上的系統內存極限，尤其是在處理大規模視覺數據集時。

為了實現有效的 OOD 性能監控，MiniMax 會定期引入在線測試集基準測試。

為了減輕由此產生的系統開銷，MiniMax 的做法是將測試階段與主訓練循環和批處理基準分離，從而繞過默認的 vLLM 數據處理。

實驗表現如何？

MiniMax 自然也進行了實驗驗證。模型方面，他們采用了 Qwen2.5-VL-7B-Instruct 和 Qwen2.5-VL-32B-Instruct 作為基礎模型。

V-Triune 的實現則基于 verl。MiniMax 啟用原生 FSDP 進行訓練，并使用 vLLM 進行生成。所有實驗均在 64 塊 NVIDIA H20 GPU 上完成。

此外，他們也進行了數據的整編，其中包括許多不同任務的數據集和兩個過濾階段：基于規則過濾以及基于難度過濾。最終，他們得到了一個包含2.06 萬感知樣本和 2.71 萬推理樣本的語料庫。

有關訓練細節和評估基準的更多詳細描述請參閱原論文，下面來重點看看主要實驗結果。

MEGA-Bench

表 1 給出了 Orsta 與其骨干模型以及領先的通用 / 推理增強型 VLM 的全面比較。

可以看到，在 7B 和 32B 規模上，Orsta 均表現出了持續的提升：Orsta-7B 在 MEGA-Bench Core 上達到 38.31 (+3.2)，Orsta-32B 達到 45.78 (+2.1)。

對于具有豐富訓練數據的領域（數學、感知、規劃和科學），MiniMax 的方法 V-Triune 為性能帶來了顯著提升。這表明其在推理和感知任務中均具有強大的泛化能力。相比之下，由于稀疏監督，編程和指標相關任務的提升有限，這凸顯了新提出的統一強化學習訓練方法的目標可擴展性。

圖 11 展示了三個 Orsta 變體（7B、32B-0321、32B-0326）在在線策略和離線策略強化學習下的 MEGA-Bench 性能軌跡。

可以看到，所有變體均表現出穩定的改進，在線策略訓練通常優于離線策略訓練。7B 模型表現出更平滑、更顯著的增益，而 32B 模型的進展則更慢或更不穩定 —— 表明規模更大時，優化難度也更大。

Qwen2.5-VL-0321 在感知和輸出格式方面存在已知的問題，但在推理任務中表現可靠，這已得到 MiniMax 的評估和 VL-Rethinker 研究的證實。這些問題在后續的 0326 版本中得到了解決。MiniMax 認為 0321 版本是一個很不錯的基線，具有核心知識能力。

如圖 12 所示，Orsta-32B-0321 表明強化學習作為一種對齊機制，而不是引入新的能力，主要會增強現有模型的優勢。在數學、感知、科學和規劃等領域，性能提升最為顯著，而在編程等領域外任務中則提升有限，這凸顯了以對齊為重的強化學習的影響。

總而言之，MiniMax 的結果表明，強化學習能夠在統一的框架內有效增強視覺推理和感知能力。強化學習在 MEGA-Bench Core 的 440 個不同任務上實現了持續的性能提升，表明其可以作為通用的對齊策略，能夠釋放預訓練視覺-語言模型的潛力。

常見下游任務

表 2 給出了在常見視覺推理和感知任務上各模型的表現。

可以看到，在 7B 規模下 Orsta 的性能比其骨干模型高出 4%，在 32B-0326 規模下的性能比其骨干模型高出 1%。

在以數學為中心的 MathVista 基準上，Orsta 在所有模型規模上都實現了超過 5% 的性能提升。這些結果與 MEGA-Bench 數學任務上觀察到的提升一致，進一步證明了 Orsta 在提升推理能力方面的優勢。

視覺感知能力上，Orsta 在各個基準上均有提升。

在 COCO 檢測任務上，Orsta-7B 取得了顯著提升（單目標檢測 +7.81 mAP 和 +12.17 mAP@50；多目標檢測 +3.77 mAP 和 +5.48 mAP@50），在更簡單的場景中提升尤為顯著。Orsta-32B-0321 亦提升明顯，并解決了先前的感知問題，而 Orsta-32B-0326 在兩個子集上均實現了 +3% 的 mAP 提升。

在 OVDEval 測試上，Orsta-7B 和 32B 分別提升了 +5.3 和 +3.5 mAP，驗證了動態 IoU 獎勵的有效性。在 GUI 和 OCR 任務（ScreenSpotPro、OCRBench）上，Orsta-7B 和 32B 分別實現了 +5.3 和 +3.5 的 mAP 提升。在 CountBench 上的提升最為顯著，Orsta-7B 的表現優于 32B SFT 模型，而 Orsta-32B 則創下了新的最高水平。

總體而言，V-Triune 對對齊程度較低的基礎模型 (0321) 的感知改進比對已完成訓練的模型 (0326) 的感知改進更大。

MiniMax 也進行了訓練指標分析和消融研究，進一步驗證了新方法的優勢，詳見原論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.