99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

首個視覺RL統一框架!推理感知兩手抓,性能橫掃MEGA-Bench

0
分享至

鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI

僅需一個強化學習(RL)框架,就能實現視覺任務大統一

現有RL對推理和感知任務只能二選一,但“大模型六小強”之一MiniMax表示:我全都要!



最新開源V-Triune(視覺三重統一強化學習系統)框架,使VLM首次能夠在單個后訓練流程中,聯合學習和掌握視覺推理和感知任務。

通過三層組件設計基于動態交并比(IoU)的獎勵機制,彌補了傳統RL方法無法兼顧多重任務的空白。



甚至基于V-Triune,MiniMax還一步到位,貼心地給大家開發了全新的Orsta(One RL to See Them All)模型系列(7B至32B),在MEGA-Bench Core基準測試中從+2.1%顯著提升至+14.1%。



值得注意的是,在論文的作者一欄,MiniMax創始人兼CEO閆俊杰也參與了這項研究。



目前V-Triune框架和Orsta模型都在GitHub上實現全面開源,點擊文末鏈接即可跳轉一鍵獲取。

那話不多說,咱們直接上細節。

推理感知“兩手抓”

視覺任務可以分為推理感知兩類,在當前,RL研究主要集中于數學QA和科學QA等視覺推理任務。

而目標檢測和定位等視覺感知任務,因亟需獨特的獎勵設計和訓練穩定性保障,還沒有得到一個很好的解決方案……



針對上述問題,MiniMax針對性地提出了新框架V-Triune,作為首個面向VLM后訓練的統一RL系統,通過三個互補組件核心巧妙實現二者的平衡。

樣本級數據格式化

讓每個樣本自定義其獎勵設置和驗證器,支持動態路由和權重調整,以處理多種任務需求。

數據模式基于HuggingFace數據集實現,包含以下三個字段:

  1. reward_model:樣本級定義獎勵類型、權重。
  2. verifier:指定驗證器及其參數。
  3. data_source:標識樣本來源。

最終實現了多樣化數據集的無縫集成,同時支持高度靈活的獎勵控制。

驗證器級獎勵計算

采用異步客戶端-服務器架構,將獎勵計算與主訓練循環解耦。



客戶端通過代理工作器異步發送請求,而服務器則根據”verifier”字段路由至專用驗證器。

主要使用兩類驗證器:

  1. MathVerifyVerifierr:處理推理、OCR和計數任務。
  2. DetectionVerifier:處理檢測和定位任務,應用動態IoU獎勵。

從而實現在無需修改核心訓練流程的情況下,靈活擴展新任務或更新獎勵邏輯。

數據源級指標監控

在多任務多源訓練中,按數據源記錄以下指標:

  1. 獎勵值:追蹤數據集特定穩定性。
  2. IoU和mAP(感知任務):記錄不同閾值下的IoU和mAP。
  3. 響應長度和反思率:跟蹤響應長度分布、截斷率,以及15個預定義反思詞(如“re-check”)的出現比例。

該監控機制幫助診斷模型行為(如過度思考或膚淺響應),并確保學習的穩定性。



動態IoU獎勵

此外針對監測和定位任務,團隊還創新性地提出了動態IoU獎勵,分階段調整閾值,以緩解冷啟動問題,同時引導模型逐步提升定位精度:





雖然V-Triune提供了可擴展的數據、任務和指標框架,但早期實驗顯示,聯合訓練可能會導致評估性能下降梯度范數突增等不穩定現象,于是團隊又通過以下調整逐步解決:

  1. 凍結ViT參數,防止梯度爆炸。
  2. 過濾偽圖像特殊詞元,確保輸入特征對齊,提升訓練穩定性。
  3. 構建隨機化CoT提示池,降低提示依賴性。
  4. 由于V-Triune基于Verl框架實現,主節點內存壓力較大,需解耦測試階段與主訓練循環以管理內存。

Orsta模型

另外值得一提的是,基于開源的Qwen2.5-VL模型,團隊還訓練出7B和32B的Orsta模型



依據4類推理任務(數學、謎題、科學、圖表分析)和4類感知任務(物體檢測、目標定位、計數、OCR)的訓練數據,進行規則和難度的兩階段過濾和訓練優化。

最終實現在MEGA-Bench Core基準測試中,Orsta相比原始模型提升至+14.1%,尤其是在感知任務中,mAP指標顯著提高,證明了該統一方法的有效性和可擴展性。



MiniMax布局多模態領域

MiniMax作為商湯背景出身的AI六小龍之一,近期在多模態領域可謂動作頻頻,模型橫跨語言、音頻、視頻。



例如MiniMax的S2V-01視頻模型、MiniMax-VL-01視覺多模態模型以及MiniMax-T2A-01系列語言模型等。

尤其是廣受好評的MiniMax-01系列,包含基礎語言模型和視覺多模態模型兩種,性能上比肩DeepSeek-V3、GPT-4o等國內外頂尖模型的同時,還首次創新性實現了對新型Lightning Attention架構的大規模擴展。

最新發布的Speech-02,在AI語言生成上也是一騎絕塵,直接刷新全球權威語音基準測試榜單第一,一舉打破OpenAI、ElevenLabs的行業壟斷。



據悉,此番統一視覺任務的RL架構

是為后續更大規模模型的通用視覺能力做探索。

MiniMax的更多開源,感興趣的小伙伴可以持續蹲一蹲~

論文鏈接:https://arxiv.org/abs/2505.18129
代碼鏈接:https://github.com/MiniMax-AI/One-RL-to-See-Them-All

參考鏈接:
[1]https://x.com/MiniMax__AI/status/1926949919228600423
[2]https://huggingface.co/papers/2505.18129

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國務卿魯比奧:美國將開始吊銷中國留學生簽證

美國務卿魯比奧:美國將開始吊銷中國留學生簽證

國際在線
2025-05-29 12:49:07
90多個國家享受星鏈,為何唯獨不對中國開通?真相是中國背后技術

90多個國家享受星鏈,為何唯獨不對中國開通?真相是中國背后技術

百科密碼
2025-05-29 15:27:54
俄羅斯盧布兌美元升破79,創2023年6月以來的最高水平

俄羅斯盧布兌美元升破79,創2023年6月以來的最高水平

每日經濟新聞
2025-05-29 16:20:07
高盛給出長期資產配置建議:未來五年,超配黃金,低配原油!

高盛給出長期資產配置建議:未來五年,超配黃金,低配原油!

財聯社
2025-05-29 17:45:19
孫穎莎談奧運女單失利:不至于留下心理陰影,還有時間去完成夢想

孫穎莎談奧運女單失利:不至于留下心理陰影,還有時間去完成夢想

懂球帝
2025-05-29 14:36:08
退休夫妻凌晨從28樓跳下,銀行存款432萬,遺言:活著好難

退休夫妻凌晨從28樓跳下,銀行存款432萬,遺言:活著好難

潮河講堂
2025-05-24 18:27:10
驅逐艦還沒扶正!朝鮮領導人下令抓了兩批人,沒一個是一線干活的

驅逐艦還沒扶正!朝鮮領導人下令抓了兩批人,沒一個是一線干活的

鐵血出鞘
2025-05-30 01:45:03
留美家庭:更大的身份圍剿已經在路上!你準備好了嗎?

留美家庭:更大的身份圍剿已經在路上!你準備好了嗎?

華人生活網
2025-05-30 04:56:24
向佐發文感謝妻子郭碧婷,曬兩孩子溫馨照片:我是多么幸運的一個老公

向佐發文感謝妻子郭碧婷,曬兩孩子溫馨照片:我是多么幸運的一個老公

魯中晨報
2025-05-29 14:29:18
俗語:“端午吃三黃,一年病不沾”,究竟是指哪三黃,有道理嗎?

俗語:“端午吃三黃,一年病不沾”,究竟是指哪三黃,有道理嗎?

餐飲新紀元
2025-05-29 07:17:46
男女在海底撈做不雅之事,手直接探進女生裙子里,大尺度畫面流出

男女在海底撈做不雅之事,手直接探進女生裙子里,大尺度畫面流出

博士觀察
2025-05-29 12:31:58
馬克龍見27歲最年輕第一夫人,“被驚艷到”,72歲愛妻盡顯松弛感

馬克龍見27歲最年輕第一夫人,“被驚艷到”,72歲愛妻盡顯松弛感

阿廢冷眼觀察所
2025-05-11 12:02:37
足壇一夜4大消息!米蘭換帥完畢,切爾西截胡曼聯,天使落葉歸根

足壇一夜4大消息!米蘭換帥完畢,切爾西截胡曼聯,天使落葉歸根

阿超他的體育圈
2025-05-30 05:18:17
全球最大汽車運輸船比亞迪“深圳號”首航抵達巴西

全球最大汽車運輸船比亞迪“深圳號”首航抵達巴西

環球網資訊
2025-05-29 10:38:03
善惡終有報!58歲被淘汰的林志炫,是華語樂壇最大的悲哀與損失!

善惡終有報!58歲被淘汰的林志炫,是華語樂壇最大的悲哀與損失!

姩姩有娛呀
2025-05-28 09:07:12
重磅利好來襲!5月30日,A股市場行情將繼續上攻?

重磅利好來襲!5月30日,A股市場行情將繼續上攻?

風口招財豬
2025-05-30 00:57:11
網友:你這輩子無緣這種級別季后賽了!KD:嫉妒 你這輩子無緣NBA

網友:你這輩子無緣這種級別季后賽了!KD:嫉妒 你這輩子無緣NBA

直播吧
2025-05-30 06:38:03
被2025年全國高考人數嚇到了!25屆高考生,千軍萬馬過最寬獨木橋

被2025年全國高考人數嚇到了!25屆高考生,千軍萬馬過最寬獨木橋

小嵩
2025-05-29 14:38:10
歷史首次!英超集體狂飆:6隊拿冠軍9隊踢歐戰,創4大紀錄

歷史首次!英超集體狂飆:6隊拿冠軍9隊踢歐戰,創4大紀錄

葉青足球世界
2025-05-29 07:03:56
你會永遠活在庫里陰影下!KD:在我幻想的NBA世界里我就是GOAT

你會永遠活在庫里陰影下!KD:在我幻想的NBA世界里我就是GOAT

直播吧
2025-05-30 06:48:16
2025-05-30 07:23:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10589文章數 176157關注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

若對等關稅叫停,特朗普還能怎么加關稅

汽車要聞

首搭鴻蒙座艙5 嵐圖FREE+將于6月預售

態度原創

健康
家居
本地
數碼
軍事航空

唇皰疹和口腔潰瘍是"同伙"嗎?

家居要聞

暖色復古 溫馨小資情調

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

數碼要聞

英偉達原生 GeForce NOW 應用登陸 Steam Deck

軍事要聞

以軍承認使用激光武器攔截無人機

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 筠连县| 阿坝县| 重庆市| 三亚市| 吉木萨尔县| 安顺市| 长垣县| 双流县| 宜良县| 潞城市| 长乐市| 新安县| 杭锦后旗| 芦溪县| 靖远县| 东乡县| 夏津县| 宜君县| 宁强县| 玛沁县| 额敏县| 庆阳市| 久治县| 湘潭县| 监利县| 和平县| 永丰县| 将乐县| 乌拉特前旗| 盐城市| 额济纳旗| 普兰县| 名山县| 民权县| 睢宁县| 门源| 左贡县| 阳朔县| 高唐县| 托里县| 鄂州市|