始智AI wisemodel.cn開源社區
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel社區上線,最新上線4090資源不限量,價格實惠,靈活方便,支持在線微調訓練模型,及和,并。
全球首個開源工業界多模態推理大模型來了!昆侖萬維開源的Skywork R1V(以下簡稱「R1V」)高效地將DeepSeek-R1這種強大的文本推理能力無縫scaling到了視覺模態,實現了多模態領域的領先表現,38B參數模型性能直逼DeepSeek-R1,同尺寸上橫掃多項SOTA。
在視覺問答任務中,R1V直接對標Claude 3.5 Sonnet、GPT-4o等閉源模型,同時還保留了頂級文本推理能力。在MMMU基準測試中,R1V以69分創下同等規模新高,在MathVista上拿下67.5分,達到領先的開源模型水平。無論是復雜的數學推理,還是圖像中的邏輯分析等,R1V都能輕松駕馭,堪稱多模態領域的「全能戰士」。Skywork R1V已上線始智AI-wisemodel開源社區,歡迎大家前去體驗。
模型地址
https://www.wisemodel.cn/models/Skywork/Skywork-R1V
01.
全球首款開源多模態推理模型
此前,OpenAI o1和DeepSeek-R1在全球帶來了長思考模型的熱潮,讓大模型領域進入了全新的技術范式。而不同于長思考模型專注于多步推理的特點,視覺思考模型則專注于從圖像或視頻中提取信息、進行邏輯推理。
如果要給它下個定義的話,什么是視覺思考模型?簡單來說,視覺思考模型是一種,能在文本、視覺復雜任務中,展現驚人推理能力的AI。它不僅能「讀懂」文字,還能「看懂」圖像,并基于此進行深度分析和邏輯推理。
首先來一道數學題:「用圓心角為120°,半徑為6cm的扇形紙片卷成一個圓錐形無底紙帽,則這個紙帽的高是?」R1V經過短暫糾錯后,給出了清晰完整的解題過程,并得出正確答案,表現出了較強的邏輯推理能力。
接下來再來一道更難一些的:「函數f(x)=∣2x?3∣+1在x=2和x=5處的導數關系是?」可以看到,R1V先找到了絕對值部分∣2x?3∣的零點:令2x-3=0得x=1.5。然后得出,當x≥1.5時,f(x)=2x-3+1=2x-2,導數f?'(x)=2;當x<1.5時,f(x)=-(2x-3)+1=-2x+4,導數f?'(x)=-2。由于題目中的x=2和x=5均大于1.5,所以都屬于f(x)=2x-2部分。因此,f?'(2)=2,f?'(5)=2,即兩點處的導數相等。最后,R1V給出了答案:(B)等于。案例中不難看出,R1V在視覺+推理上表現驚艷。
02.
全公開的技術細節
1、跨模態遷移學習
昆侖萬維的研究者,首次發現了跨模態的遷移學習。R1V首次實現了將大模型的文本推理能力高效遷移至視覺模態,通過Skywork-VL視覺投影器的有效訓練,顯著保留了原有的推理能力。
整個過程無需從頭重新訓練基座語言模型和視覺編碼器,且有效保留了原有的文本推理能力。具體來說,研究者提出了一種高效的多模態遷移方法,通過MLP結構,有效地將具有推理能力的語言模型與視覺骨干對齊。這樣,就大幅減少了對大量多模態推理數據的需求。
這種方法背后的關鍵洞察,就在于將視覺-語言表示的對齊與推理能力的保留解耦。直接將具有推理能力的語言模型(fl)連接到視覺骨干(fv),會需要大量的 R1風格格式的多模態推理數據,以同時實現這兩個目標。然而這種做法成本太高,不切實際。
因此,研究者采用了一種相反的分階段策略。首先,他們訓練一個MLP適配器,將fv與具有相同架構但無推理能力的替代語言模型()對齊;隨后,他們利用和fl之間的潛在相似性,將預訓練的MLP轉移,以使fv與原始的推理能力模型fl對齊。
這樣,所需數據量就大幅減少。所導致的結果就是,正如前文提到的,R1V在權威的數學推理基準測試AIME和MATH500中,分別取得72.0和94.0的高分,展現了強大的推理競爭力。
在同等規模大小模型中的推理能力遙遙領先,并且與閉源模型以及大尺寸模型相比,仍有很強的競爭力。這樣的優異的文本推理能力,直接「搬家」視覺領域,效率直接拉滿。
2、混合式策略訓練
R1V還采用了迭代監督微調(Iterative SFT)和 GRPO強化學習相結合的混合訓練方法,能夠動態調整思維鏈長度。這個過程,一共分為三個階段。
階段1:使用完整數據集,進行初始訓練;
階段2:使用定制數據,進行迭代訓練;
階段3:強化學習。
混合式訓練策略
具體而言,在SFT階段,研究人員迭代訓練一系列模型M?, ..., M?,其中每個后續模型M???,都在獎勵模型選擇的高質量數據和前一迭代中處理不正確的樣本上進行訓練。在RL階段,遵循了DeepSeek R1提出的方法,利用基于規則的獎勵系統GRPO,進一步提升模型的泛化能力。
強化學習訓練完成后,研究人員選擇一個在性能和推理合理性之間達到最佳平衡的模型作為最終模型。經此訓練后的模型,不僅提升了推理效率,還在開源模型中,率先實現SOTA。
經過強化學習訓練,R1V在MMMU基準上達到69分的高分,同時在MathVista上取得67.5分,接近更大規模閉源模型的表現。
3、自適應長度思維鏈蒸餾
此外,研究團隊還提出了一個自適應長度的思維鏈蒸餾(AL-CoTD)框架。像o1這樣的推理模型之所以表現出色,很大程度上歸功于,它們在推理時能模擬人類長時間的思考過程。然而,一個關鍵問題來了——推理模型有時會「過度思考」?;蛟S你也感同身受:輸入一個問題后,AI有時會反復思考很多遍。
最近,來自UC伯克利CMU、UMass Amherst、上交大等國內外機構也通過研究實證,推理模型「過度思考」會導致計算資源浪費,甚至損害模型本身的性能。某些情況下, AI生成的序列可能長達數萬個token,收益卻微乎其微。
昆侖萬維提出的AL-CoTD框架,可根據需求動態調整思維鏈長度,有效緩解推理模型「過度思考」的問題,并顯著提升了推理效率。它一共包含三大核心組件:質量與難度評估模塊(QDAM)、視覺-文本集成分析器(VTIA)、動態推理長度控制器(DRLC)。
自適應長度思維鏈蒸餾
QDAM
質量與難度評估模塊利用GPT-4o系統性地評估圖文查詢對,從視覺得分(Sv)和文本得分(St)兩個主要維度進行分析。視覺得分(Sv)會量化圖像的視覺特征,具體包括圖像清晰度和圖像必要性。文本得分(St)則會分析語言特性,主要涵蓋問題質量、難度級別和推理需求。
這個綜合評估框架能夠捕捉多模態查詢中的感知復雜性和認知復雜性,從而能更準確地評估多模態任務的難度。
VITA
視覺-文本融合分析器(VTIA) 通過句法分析和語義分析確定跨模態融合的必要深度,并計算融合評分(SI)。VTIA依靠GPT-4o識別圖文查詢中的模式,并根據查詢的復雜程度動態調整融合需求。
高融合模式常見于科學解釋類問題,涉及多個視覺對象的空間關系理解,需要高階視覺推理能力。低融合模式主要出現在物體識別任務,側重于直接物體識別,不需要復雜推理。這樣,VTIA就實現了針對查詢復雜度的自適應跨模態融合,確保模型合理分配計算資源。
DRLC
動態推理長度控制器(DRLC) 通過歸一化的視覺得分( )、文本得分( )和融合評分( )來動態調節推理鏈的長度。這些歸一化得分通過最小-最大縮放歸一化到區間 [0,1]。推理鏈長度的調節遵循以下兩大原則:
降低重復懲罰(促進深入推理):當圖文質量高、認知難度大、視覺場景復雜時,降低重復懲罰,以允許更長的推理鏈。
高重復懲罰(減少冗余推理):當查詢涉及低難度任務、簡單視覺識別,且文本-圖像的融合需求較低時,提高重復懲罰,從而縮短推理鏈,避免不必要的復雜推理。
多階段自蒸餾管線
在DRLC模塊的基礎上,研究者進一步引入漸進式自蒸餾策略,以提高推理數據的質量??偨Y來說,這篇論文的發表,也意味著相較于其他不開源或不免費的模型,昆侖萬維無償把上述技術思路給開源了。這也就充分體現出R1V和DeepSeek的思路一樣,希望通過開源持續打造技術影響力。
4、進化全模態
值得一提的是,當前想要打造一個全模態的模型,不僅需要在特定領域獨立訓練多個專業模型,而且還會面臨跨模態協同的算力挑戰。為實現多模態到全模態的跨越,團隊設計了一種全新的全模態擴展技術,使得R1V在單個模型中具備同時處理圖像、視頻、語音等多種模態信息的能力。
結果顯示,「進化」后的R1V不僅能夠在單個模型中同時實現圖像、視頻、語音的全模態思考能力,而且還能在語音和視覺理解評測中均斬獲多項SOTA成績。
過去3年,昆侖萬維在音樂大模型、文本大模型、視頻模型等領域,取得了一系列突破,并構建起了完整的AI產品矩陣:天工AI搜索、全球首個AI音樂創作平臺Mureka、AI短劇平臺SkyReels、世界模型系列Matrix-Zero。
編輯:成蘊年
----- END -----
wisemodel相關:
系統升級:
大賽報名:
系列模型:
關于wisemodel更多
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.