鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
僅需一個強化學習(RL)框架,就能實現視覺任務大統一?
現有RL對推理和感知任務只能二選一,但“大模型六小強”之一MiniMax表示:我全都要!
最新開源V-Triune(視覺三重統一強化學習系統)框架,使VLM首次能夠在單個后訓練流程中,聯合學習和掌握視覺推理和感知任務。
通過三層組件設計和基于動態交并比(IoU)的獎勵機制,彌補了傳統RL方法無法兼顧多重任務的空白。
甚至基于V-Triune,MiniMax還一步到位,貼心地給大家開發了全新的Orsta(One RL to See Them All)模型系列(7B至32B),在MEGA-Bench Core基準測試中從+2.1%顯著提升至+14.1%。
值得注意的是,在論文的作者一欄,MiniMax創始人兼CEO閆俊杰也參與了這項研究。
目前V-Triune框架和Orsta模型都在GitHub上實現全面開源,點擊文末鏈接即可跳轉一鍵獲取。
那話不多說,咱們直接上細節。
推理感知“兩手抓”
視覺任務可以分為推理和感知兩類,在當前,RL研究主要集中于數學QA和科學QA等視覺推理任務。
而目標檢測和定位等視覺感知任務,因亟需獨特的獎勵設計和訓練穩定性保障,還沒有得到一個很好的解決方案……
針對上述問題,MiniMax針對性地提出了新框架V-Triune,作為首個面向VLM后訓練的統一RL系統,通過三個互補組件核心巧妙實現二者的平衡。
樣本級數據格式化
讓每個樣本自定義其獎勵設置和驗證器,支持動態路由和權重調整,以處理多種任務需求。
數據模式基于HuggingFace數據集實現,包含以下三個字段:
- reward_model:樣本級定義獎勵類型、權重。
- verifier:指定驗證器及其參數。
- data_source:標識樣本來源。
最終實現了多樣化數據集的無縫集成,同時支持高度靈活的獎勵控制。
驗證器級獎勵計算
采用異步客戶端-服務器架構,將獎勵計算與主訓練循環解耦。
客戶端通過代理工作器異步發送請求,而服務器則根據”verifier”字段路由至專用驗證器。
主要使用兩類驗證器:
- MathVerifyVerifierr:處理推理、OCR和計數任務。
- DetectionVerifier:處理檢測和定位任務,應用動態IoU獎勵。
從而實現在無需修改核心訓練流程的情況下,靈活擴展新任務或更新獎勵邏輯。
數據源級指標監控
在多任務多源訓練中,按數據源記錄以下指標:
- 獎勵值:追蹤數據集特定穩定性。
- IoU和mAP(感知任務):記錄不同閾值下的IoU和mAP。
- 響應長度和反思率:跟蹤響應長度分布、截斷率,以及15個預定義反思詞(如“re-check”)的出現比例。
該監控機制幫助診斷模型行為(如過度思考或膚淺響應),并確保學習的穩定性。
動態IoU獎勵
此外針對監測和定位任務,團隊還創新性地提出了動態IoU獎勵,分階段調整閾值,以緩解冷啟動問題,同時引導模型逐步提升定位精度:
雖然V-Triune提供了可擴展的數據、任務和指標框架,但早期實驗顯示,聯合訓練可能會導致評估性能下降、梯度范數突增等不穩定現象,于是團隊又通過以下調整逐步解決:
- 凍結ViT參數,防止梯度爆炸。
- 過濾偽圖像特殊詞元,確保輸入特征對齊,提升訓練穩定性。
- 構建隨機化CoT提示池,降低提示依賴性。
- 由于V-Triune基于Verl框架實現,主節點內存壓力較大,需解耦測試階段與主訓練循環以管理內存。
Orsta模型
另外值得一提的是,基于開源的Qwen2.5-VL模型,團隊還訓練出7B和32B的Orsta模型。
依據4類推理任務(數學、謎題、科學、圖表分析)和4類感知任務(物體檢測、目標定位、計數、OCR)的訓練數據,進行規則和難度的兩階段過濾和訓練優化。
最終實現在MEGA-Bench Core基準測試中,Orsta相比原始模型提升至+14.1%,尤其是在感知任務中,mAP指標顯著提高,證明了該統一方法的有效性和可擴展性。
MiniMax布局多模態領域
MiniMax作為商湯背景出身的AI六小龍之一,近期在多模態領域可謂動作頻頻,模型橫跨語言、音頻、視頻。
例如MiniMax的S2V-01視頻模型、MiniMax-VL-01視覺多模態模型以及MiniMax-T2A-01系列語言模型等。
尤其是廣受好評的MiniMax-01系列,包含基礎語言模型和視覺多模態模型兩種,性能上比肩DeepSeek-V3、GPT-4o等國內外頂尖模型的同時,還首次創新性實現了對新型Lightning Attention架構的大規模擴展。
最新發布的Speech-02,在AI語言生成上也是一騎絕塵,直接刷新全球權威語音基準測試榜單第一,一舉打破OpenAI、ElevenLabs的行業壟斷。
據悉,此番統一視覺任務的RL架構
是為后續更大規模模型的通用視覺能力做探索。
MiniMax的更多開源,感興趣的小伙伴可以持續蹲一蹲~
論文鏈接:https://arxiv.org/abs/2505.18129
代碼鏈接:https://github.com/MiniMax-AI/One-RL-to-See-Them-All
參考鏈接:
[1]https://x.com/MiniMax__AI/status/1926949919228600423
[2]https://huggingface.co/papers/2505.18129
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.