99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<sub id="igfiv"><p id="igfiv"></p></sub><blockquote id="igfiv"></blockquote>

<blockquote id="igfiv"><p id="igfiv"></p></blockquote>

<tr id="igfiv"><dfn id="igfiv"><thead id="igfiv"></thead></dfn></tr>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

首個視覺RL統一框架！推理感知兩手抓，性能橫掃MEGA-Bench

2025-05-28 22:25:29　來源: 量子位

北京舉報

0

分享至

鷺羽發自凹非寺
量子位 | 公眾號 QbitAI

僅需一個強化學習（RL）框架，就能實現視覺任務大統一？

現有RL對推理和感知任務只能二選一，但“大模型六小強”之一MiniMax表示：我全都要！

最新開源V-Triune（視覺三重統一強化學習系統）框架，使VLM首次能夠在單個后訓練流程中，聯合學習和掌握視覺推理和感知任務。

通過三層組件設計和基于動態交并比（IoU）的獎勵機制，彌補了傳統RL方法無法兼顧多重任務的空白。

甚至基于V-Triune，MiniMax還一步到位，貼心地給大家開發了全新的Orsta（One RL to See Them All）模型系列（7B至32B），在MEGA-Bench Core基準測試中從+2.1%顯著提升至+14.1%。

值得注意的是，在論文的作者一欄，MiniMax創始人兼CEO閆俊杰也參與了這項研究。

目前V-Triune框架和Orsta模型都在GitHub上實現全面開源，點擊文末鏈接即可跳轉一鍵獲取。

那話不多說，咱們直接上細節。

推理感知“兩手抓”

視覺任務可以分為推理和感知兩類，在當前，RL研究主要集中于數學QA和科學QA等視覺推理任務。

而目標檢測和定位等視覺感知任務，因亟需獨特的獎勵設計和訓練穩定性保障，還沒有得到一個很好的解決方案……

針對上述問題，MiniMax針對性地提出了新框架V-Triune，作為首個面向VLM后訓練的統一RL系統，通過三個互補組件核心巧妙實現二者的平衡。

樣本級數據格式化

讓每個樣本自定義其獎勵設置和驗證器，支持動態路由和權重調整，以處理多種任務需求。

數據模式基于HuggingFace數據集實現，包含以下三個字段：

reward_model：樣本級定義獎勵類型、權重。
verifier：指定驗證器及其參數。
data_source：標識樣本來源。

最終實現了多樣化數據集的無縫集成，同時支持高度靈活的獎勵控制。

驗證器級獎勵計算

采用異步客戶端-服務器架構，將獎勵計算與主訓練循環解耦。

客戶端通過代理工作器異步發送請求，而服務器則根據”verifier”字段路由至專用驗證器。

主要使用兩類驗證器：

MathVerifyVerifierr：處理推理、OCR和計數任務。
DetectionVerifier：處理檢測和定位任務，應用動態IoU獎勵。

從而實現在無需修改核心訓練流程的情況下，靈活擴展新任務或更新獎勵邏輯。

數據源級指標監控

在多任務多源訓練中，按數據源記錄以下指標：

獎勵值：追蹤數據集特定穩定性。
IoU和mAP（感知任務）：記錄不同閾值下的IoU和mAP。
響應長度和反思率：跟蹤響應長度分布、截斷率，以及15個預定義反思詞（如“re-check”）的出現比例。

該監控機制幫助診斷模型行為（如過度思考或膚淺響應），并確保學習的穩定性。

動態IoU獎勵

此外針對監測和定位任務，團隊還創新性地提出了動態IoU獎勵，分階段調整閾值，以緩解冷啟動問題，同時引導模型逐步提升定位精度：

雖然V-Triune提供了可擴展的數據、任務和指標框架，但早期實驗顯示，聯合訓練可能會導致評估性能下降、梯度范數突增等不穩定現象，于是團隊又通過以下調整逐步解決：

凍結ViT參數，防止梯度爆炸。
過濾偽圖像特殊詞元，確保輸入特征對齊，提升訓練穩定性。
構建隨機化CoT提示池，降低提示依賴性。
由于V-Triune基于Verl框架實現，主節點內存壓力較大，需解耦測試階段與主訓練循環以管理內存。

Orsta模型

另外值得一提的是，基于開源的Qwen2.5-VL模型，團隊還訓練出7B和32B的Orsta模型。

依據4類推理任務（數學、謎題、科學、圖表分析）和4類感知任務（物體檢測、目標定位、計數、OCR）的訓練數據，進行規則和難度的兩階段過濾和訓練優化。

最終實現在MEGA-Bench Core基準測試中，Orsta相比原始模型提升至+14.1%，尤其是在感知任務中，mAP指標顯著提高，證明了該統一方法的有效性和可擴展性。

MiniMax布局多模態領域

MiniMax作為商湯背景出身的AI六小龍之一，近期在多模態領域可謂動作頻頻，模型橫跨語言、音頻、視頻。

例如MiniMax的S2V-01視頻模型、MiniMax-VL-01視覺多模態模型以及MiniMax-T2A-01系列語言模型等。

尤其是廣受好評的MiniMax-01系列，包含基礎語言模型和視覺多模態模型兩種，性能上比肩DeepSeek-V3、GPT-4o等國內外頂尖模型的同時，還首次創新性實現了對新型Lightning Attention架構的大規模擴展。

最新發布的Speech-02，在AI語言生成上也是一騎絕塵，直接刷新全球權威語音基準測試榜單第一，一舉打破OpenAI、ElevenLabs的行業壟斷。

據悉，此番統一視覺任務的RL架構

是為后續更大規模模型的通用視覺能力做探索。

MiniMax的更多開源，感興趣的小伙伴可以持續蹲一蹲~

論文鏈接：https://arxiv.org/abs/2505.18129
代碼鏈接：https://github.com/MiniMax-AI/One-RL-to-See-Them-All

參考鏈接：
[1]https://x.com/MiniMax__AI/status/1926949919228600423
[2]https://huggingface.co/papers/2505.18129

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

中國團隊讓AI擁有「視覺想象力」，像人類一樣腦補畫面來思考

機器之心Pro 2025-05-29 15:26:48
0 跟貼 0
自變量機器人王潛：具身智能大模型沒法抄國外作業

36氪 2025-05-29 09:07:14
1 跟貼 1

三位頂流AI技術人罕見同臺，談了談AI行業最大的「羅生門」

36氪 2025-05-28 20:01:14
0 跟貼 0

圖像分詞器造反了！華為 Selftok：自回歸內核完美統一擴散模型

機器之心Pro 2025-05-22 10:38:46
0 跟貼 0
AI這場仗，螞蟻決定這么打

鈦媒體APP 2025-05-28 18:20:28
2 跟貼 2

LLM加RL遭質疑：故意用錯獎勵，數學基準也顯著提升，AI圈炸了

機器之心Pro 2025-05-28 16:47:07
38 跟貼 38

8秒極速生成！復雜場景圖像定制低成本輕松駕馭，已開源

量子位 2025-05-14 17:33:28
1 跟貼 1
AI連電路圖都看不懂？SeePhys新基準暴擊多模態短板，正確率僅55%

量子位 2025-05-29 15:04:34
0 跟貼 0

博士級AI智能體寫的論文，首次登上頂會ACL！人類作者只是監工

新智元 2025-05-29 19:27:25
1 跟貼 1
挖掘DiT位置解耦特性,Personalize Anything免訓練個性化圖像生成

機器之心Pro 2025-03-25 14:45:37
0 跟貼 0
視頻推理界的“福爾摩斯測試”：所有大模型，統統不及格 | 開源

量子位 2025-05-29 18:18:41
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
幾分鐘生成一檔播客？這AI實習生會不會太夸張了

雷科技 2025-05-29 01:09:27
0 跟貼 0
騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
1 跟貼 1
Anthropic對蘋果Siri發起致命一擊

虎嗅APP 2025-05-30 01:07:13
0 跟貼 0
一季度狂攬1.5億元營收可靈AI升級2.1系列模型：快手的“野心”也升級了

每日經濟新聞 2025-05-29 21:11:11
0 跟貼 0
如何一線觀摩叮咚買菜、交個朋友等12家企業AI落地實戰？

虎嗅APP 2025-05-30 00:01:15
0 跟貼 0
神奇的視覺錯覺

貓叔探索 2025-05-27 10:37:19
6 跟貼 6
出現幻覺了？

椰子嘮生活 2025-05-29 13:11:23
3 跟貼 3
鏡頭角度與視覺誤差：LadyGaga真實身高的科學解析

豬小艷吖 2025-05-30 05:24:27
0 跟貼 0
色彩三重奏｜黑 × 金 × 灰的層次過渡與視覺平衡

阿缶侃世界 2025-05-30 00:48:45
0 跟貼 0
斑斕之衣：夸古·雅羅個展

文化 2025-05-29 11:39:17
0 跟貼 0
女司機體驗開車，轉彎把大貨車都頂飛，幸虧開的是模型！

溝槽蝶時尚 2025-05-28 08:38:48
37 跟貼 37
視頻曝光，以軍首次在戰場上使用激光武器：數十次對火箭彈及無人機等攔截

魯中晨報 2025-05-29 08:57:08
38783 跟貼 38783
刀郎南寧演唱會內場前排視覺效果，高清版歌曲《山歌好比春江水》

清姐視界 2025-05-28 10:38:27
0 跟貼 0
科學家研究貝努小行星的樣本后發現了什么？

六六冷知識 2025-05-27 14:49:24
1 跟貼 1
外野外，千萬不要靠近這種模型

小溪說歷史L 2025-05-28 12:21:47
0 跟貼 0
溫商投資臺兒莊數千萬 53.8畝土地被當地政府無償收回

溫州都市報 2025-05-29 20:11:19
16459 跟貼 16459
【張雪峰】高考志愿填報邏輯，專業和院校抉擇

星之道天下 2025-05-29 05:24:32
0 跟貼 0
大哥開著改裝的拖拉機，看著跟模型似的，沒想到很擅長爬坡！

懶兔搞笑家 2025-05-28 13:43:02
1 跟貼 1
飛行員看到，都想買的海鷹直升機模型，果然細節最致命！

爆笑無極限 2025-05-29 09:15:14
1 跟貼 1
第一視角感受大貨車視覺盲區

財經網科技 2025-05-29 18:24:22
0 跟貼 0
采樣越多越聰明？隱式擴展顛覆認知，采樣搜索如何挑出完美解

新智元 2025-04-21 12:45:35
0 跟貼 0
時隔五年還在指責中國的世衛組織，突然得到5億美元捐款，活了

昨夜軍帖 2025-05-29 09:18:02
649 跟貼 649
殲-10CE首次取得實戰戰果擊落多架戰機國防部回應

上觀新聞 2025-05-29 17:13:15
3518 跟貼 3518
DeepSeek-R1更新，官方說明來了！多項表現已接近其他國際頂尖模型

每日經濟新聞 2025-05-29 21:11:11
12 跟貼 12
暴雨天在高速上開了智駕，純視覺和三激光雷達，區別還是蠻大的

瘋狂幽默俱樂部 2025-05-27 17:00:24
1 跟貼 1
雷霆4-1森林狼奪西部冠軍時隔13年重返總決賽

網易體育 2025-05-29 10:58:52
7534 跟貼 7534
只剩下番號和旗幟：戰爭三年，俄軍的精銳部隊幾乎打光了！

柴刀夫司機 2025-05-28 09:26:19
3397 跟貼 3397
o3并非獨門秘技，谷歌已發背后關鍵機制，方法更簡單、成本更低

量子位 2024-12-23 14:42:33
0 跟貼 0

美國務卿魯比奧：美國將開始吊銷中國留學生簽證

美國務卿魯比奧：美國將開始吊銷中國留學生簽證

國際在線

2025-05-29 12:49:07

90多個國家享受星鏈，為何唯獨不對中國開通？真相是中國背后技術

90多個國家享受星鏈，為何唯獨不對中國開通？真相是中國背后技術

百科密碼

2025-05-29 15:27:54

俄羅斯盧布兌美元升破79，創2023年6月以來的最高水平

俄羅斯盧布兌美元升破79，創2023年6月以來的最高水平

每日經濟新聞

2025-05-29 16:20:07

高盛給出長期資產配置建議：未來五年，超配黃金，低配原油！

高盛給出長期資產配置建議：未來五年，超配黃金，低配原油！

財聯社

2025-05-29 17:45:19

孫穎莎談奧運女單失利：不至于留下心理陰影，還有時間去完成夢想

孫穎莎談奧運女單失利：不至于留下心理陰影，還有時間去完成夢想

懂球帝

2025-05-29 14:36:08

退休夫妻凌晨從28樓跳下，銀行存款432萬，遺言：活著好難

退休夫妻凌晨從28樓跳下，銀行存款432萬，遺言：活著好難

潮河講堂

2025-05-24 18:27:10

驅逐艦還沒扶正！朝鮮領導人下令抓了兩批人，沒一個是一線干活的

驅逐艦還沒扶正！朝鮮領導人下令抓了兩批人，沒一個是一線干活的

鐵血出鞘

2025-05-30 01:45:03

留美家庭：更大的身份圍剿已經在路上！你準備好了嗎？

留美家庭：更大的身份圍剿已經在路上！你準備好了嗎？

華人生活網

2025-05-30 04:56:24

向佐發文感謝妻子郭碧婷，曬兩孩子溫馨照片：我是多么幸運的一個老公

向佐發文感謝妻子郭碧婷，曬兩孩子溫馨照片：我是多么幸運的一個老公

魯中晨報

2025-05-29 14:29:18

俗語：“端午吃三黃，一年病不沾”，究竟是指哪三黃，有道理嗎？

俗語：“端午吃三黃，一年病不沾”，究竟是指哪三黃，有道理嗎？

餐飲新紀元

2025-05-29 07:17:46

男女在海底撈做不雅之事，手直接探進女生裙子里，大尺度畫面流出

男女在海底撈做不雅之事，手直接探進女生裙子里，大尺度畫面流出

博士觀察

2025-05-29 12:31:58

馬克龍見27歲最年輕第一夫人，“被驚艷到”，72歲愛妻盡顯松弛感

馬克龍見27歲最年輕第一夫人，“被驚艷到”，72歲愛妻盡顯松弛感

阿廢冷眼觀察所

2025-05-11 12:02:37

足壇一夜4大消息！米蘭換帥完畢，切爾西截胡曼聯，天使落葉歸根

足壇一夜4大消息！米蘭換帥完畢，切爾西截胡曼聯，天使落葉歸根

阿超他的體育圈

2025-05-30 05:18:17

全球最大汽車運輸船比亞迪“深圳號”首航抵達巴西

全球最大汽車運輸船比亞迪“深圳號”首航抵達巴西

環球網資訊

2025-05-29 10:38:03

善惡終有報！58歲被淘汰的林志炫，是華語樂壇最大的悲哀與損失！

善惡終有報！58歲被淘汰的林志炫，是華語樂壇最大的悲哀與損失！

姩姩有娛呀

2025-05-28 09:07:12

重磅利好來襲！5月30日，A股市場行情將繼續上攻？

重磅利好來襲！5月30日，A股市場行情將繼續上攻？

風口招財豬

2025-05-30 00:57:11

網友：你這輩子無緣這種級別季后賽了！KD：嫉妒你這輩子無緣NBA

網友：你這輩子無緣這種級別季后賽了！KD：嫉妒你這輩子無緣NBA

直播吧

2025-05-30 06:38:03

被2025年全國高考人數嚇到了！25屆高考生，千軍萬馬過最寬獨木橋

被2025年全國高考人數嚇到了！25屆高考生，千軍萬馬過最寬獨木橋

小嵩

2025-05-29 14:38:10

歷史首次！英超集體狂飆：6隊拿冠軍9隊踢歐戰，創4大紀錄

歷史首次！英超集體狂飆：6隊拿冠軍9隊踢歐戰，創4大紀錄

葉青足球世界

2025-05-29 07:03:56

你會永遠活在庫里陰影下！KD：在我幻想的NBA世界里我就是GOAT

你會永遠活在庫里陰影下！KD：在我幻想的NBA世界里我就是GOAT

直播吧

2025-05-30 06:48:16

追蹤人工智能動態

10589文章數 176157關注度

往期回顧全部

科技要聞

英偉達財報炸裂黃仁勛卻嘆退出中國太可惜

頭條要聞

巴西檢方宣布正在起訴比亞迪外交部回應

頭條要聞

巴西檢方宣布正在起訴比亞迪外交部回應

體育要聞

納達爾，法網，漫長告別

娛樂要聞

辛柏青沉默8天后，這些事還是發生了

財經要聞

若對等關稅叫停，特朗普還能怎么加關稅

汽車要聞

首搭鴻蒙座艙5 嵐圖FREE+將于6月預售

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

家居

本地

數碼

軍事航空

唇皰疹和口腔潰瘍是"同伙"嗎？

家居要聞

暖色復古溫馨小資情調

開闊實用技術控的大平層
個性重塑現代潮酷之家
奢華典雅 “暗黑系”的生活之詩

本地新聞

云游中國 |來仰天湖大草原，一起策馬奔騰

數碼要聞

英偉達原生 GeForce NOW 應用登陸 Steam Deck

軍事要聞

以軍承認使用激光武器攔截無人機

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：筠连县| 阿坝县| 重庆市| 三亚市| 吉木萨尔县| 安顺市| 长垣县| 双流县| 宜良县| 潞城市| 长乐市| 新安县| 杭锦后旗| 芦溪县| 靖远县| 东乡县| 夏津县| 宜君县| 宁强县| 玛沁县| 额敏县| 庆阳市| 久治县| 湘潭县| 监利县| 和平县| 永丰县| 将乐县| 乌拉特前旗| 盐城市| 额济纳旗| 普兰县| 名山县| 民权县| 睢宁县| 门源| 左贡县| 阳朔县| 高唐县| 托里县| 鄂州市|

<sub id="g0ntc"></sub>

^{<blockquote id="g0ntc"></blockquote>}

<sub id="g0ntc"></sub>