將DeepSeek帶到視覺領(lǐng)域，杭州90后博導(dǎo)帶領(lǐng)一群95后發(fā)布最新成果

2025-02-23 11:04:28　來源: 九千光年

浙江舉報

分享至

東坡肉、蘑菇炒青菜、清蒸鯽魚、蝦仁豆腐……做了滿滿一桌菜，拍張照片扔給AI，問它：圖片里的哪種食物蛋白質(zhì)含量最高？哪道菜尿酸偏高的人不宜多吃？

AI深度思考了幾秒鐘，打出推理全過程，最后在圖片上將答案圈了出來。

這是學(xué)會推理的多模態(tài)大模型，未來在日常生活中的一個應(yīng)用小場景。

此前，這種“長眼睛”、擅長推理的AI還停留在想象階段。不過最近，來自杭州Om AI Lab的一群95后，已經(jīng)成功地將DeepSeek-R1的訓(xùn)練方法，從純文本領(lǐng)域遷移到視覺語言領(lǐng)域，打開了多模態(tài)大模型的更多想象空間。

他們還將這個名叫VLM-R1的項(xiàng)目開源，發(fā)布在全球最大的代碼托管平臺GitHub上，上線僅一周，就獲得各國開發(fā)者給出的2.7k Stars（星標(biāo)），并在2月21日登上熱門趨勢榜。這一成績在這個開源社區(qū)里堪稱亮眼。

VLM-R1上線GitHub一周的Star（星標(biāo)）數(shù)據(jù)曲線

2月21日上了GitHub熱門趨勢榜

這支研發(fā)團(tuán)隊的帶頭人，是個90后——Om AI Lab的創(chuàng)始人趙天成博士，他同時也是浙江大學(xué)濱江研究院Om人工智能中心主任、博士生導(dǎo)師。

將教DeepSeek-R1推理的方法

帶到機(jī)器視覺領(lǐng)域

DeepSeek-R1模型的獨(dú)特之處，在于DeepSeek對通用的模型推理步驟進(jìn)行了調(diào)整。此前，模型在提升推理能力時，通常依賴“監(jiān)督微調(diào)”（即SFT，監(jiān)督式微調(diào)）這個環(huán)節(jié)。簡單點(diǎn)說，就是拿一個已經(jīng)學(xué)了不少東西的大模型，用一些特定的、標(biāo)記好的數(shù)據(jù)，來教它如何更好地完成某個任務(wù)。這就好比你已會做菜，但具體到川菜或徽菜，還需通過專門的練習(xí)來掌握烹飪技巧。

而DeepSeek-R1在訓(xùn)練過程中直接跳過了這個環(huán)節(jié)，進(jìn)入“強(qiáng)化學(xué)習(xí)”階段，探索大模型在沒有監(jiān)督數(shù)據(jù)的情況下，通過純強(qiáng)化學(xué)習(xí)進(jìn)行自我進(jìn)化。這種創(chuàng)新性的強(qiáng)化學(xué)習(xí)方法，有個專業(yè)名詞，叫群組相對策略優(yōu)化（Group Relative Policy Optimization,GRPO）。

GRPO已經(jīng)幫助DeepSeek-R1學(xué)習(xí)推理，那是否也能幫助AI模型在一般計算機(jī)視覺任務(wù)中表現(xiàn)得更強(qiáng)？

Om AI Lab研發(fā)團(tuán)隊反復(fù)實(shí)驗(yàn)后的答案是：可以。

他們在一個視覺定位任務(wù)中，訓(xùn)練了通義開源視覺理解模型Qwen2.5-VL。在此基礎(chǔ)上，同時用R1方法和SFT方法進(jìn)行對比。目前得出的結(jié)論是：R1方法在各種復(fù)雜場景下，都能保持穩(wěn)定的高性能。這在實(shí)際應(yīng)用時至關(guān)重要。

這是一張街景照片，給AI的任務(wù)是：定位出圖中可能對視障人士行走造成危險的物體。

在路邊人行道的場景里，人類能想到對視障人士造成行走障礙的，通常是石墩子、公交站牌、行人等，這些就是可以提前標(biāo)記好的“數(shù)據(jù)”。但在這張圖中，出現(xiàn)了一個比較特殊的情況——臺階。

從趙天成團(tuán)隊的實(shí)驗(yàn)看，經(jīng)過R1方法訓(xùn)練的AI模型，能夠成功推理出臺階在這個場景中會對視障人士造成危險。

“對人類來說，這屬于常識性推理，再容易不過。但對于此前傳統(tǒng)的計算機(jī)視覺模型而言，這其實(shí)非常難。”趙天成解釋。

又比如下面這張圖，桌子上放著山藥、雞蛋餅、毛豆、青菜、咖啡和橙子，讓AI定位圖中含維生素C最多的食物。

使用R1方法訓(xùn)練的AI模型，很快鎖定了橙子并附上思考過程。“以前它直給答案，不會告訴你解題思路，且錯誤率偏高，比如10道題最多答對四五題，而R1方法訓(xùn)練的，能答對七八題。”

此外，機(jī)器學(xué)習(xí)領(lǐng)域有一種很常見的情況：用任務(wù)A去訓(xùn)練模型，隨著訓(xùn)練步數(shù)（訓(xùn)練模型所執(zhí)行的迭代次數(shù)）的增加，在跟A沒有那么相似的任務(wù)B上，它的性能會變差（圖中紅色曲線）。“有點(diǎn)‘摁了葫蘆起了瓢’的意思。所以以前做多任務(wù)時，還要精心控制任務(wù)間的比例。”而使用R1方法訓(xùn)練的AI模型（圖中綠色曲線）并不會出現(xiàn)這種趨勢，這意味著R1方法能幫助模型真正“學(xué)會”理解視覺內(nèi)容，而不是簡單地記憶。

綠色曲線是使用R1方法訓(xùn)練，紅色曲線是使用傳統(tǒng)的SFT方法。

為視覺語言模型訓(xùn)練

打開了新思路

“實(shí)驗(yàn)從春節(jié)長假期間開始啟動。好在前期積累比較多，很多‘基礎(chǔ)設(shè)施’是現(xiàn)成的，有了想法后，能快速進(jìn)行實(shí)驗(yàn)、驗(yàn)證結(jié)果。”組成團(tuán)隊的10人，有研究院的研發(fā)人員，也有趙天成帶的博士生。

2月15日，趙天成在海外社交平臺上發(fā)布VLM-R1的實(shí)驗(yàn)結(jié)果，并將它開源、上傳到GitHub，截至2月22日，已獲得全球開發(fā)者們給出的2.7k Stars。

大大小小的交流切磋問題蜂擁而來：要訓(xùn)練多久，最低顯存是多少，能否再多分享幾個模型思考過程……

“雖然底層邏輯是相通的，但視覺和數(shù)學(xué)、代碼是完全不同的模態(tài)。怎么在視覺領(lǐng)域進(jìn)行設(shè)計，讓它真正跑通，團(tuán)隊其實(shí)也經(jīng)歷了多次試錯，才找到目前這樣一個比較有效的組合。”趙天成坦言，現(xiàn)在這個版本只能算是0.1版，遠(yuǎn)未達(dá)到成熟，“有一些問題，需要繼續(xù)用更多實(shí)驗(yàn)來解答。”

在他看來，這段時間的實(shí)驗(yàn)，最大意義之一是為多模態(tài)模型的訓(xùn)練和行業(yè)提供了一些新的思路。它證明了R1方法的通用性，“不僅在文本領(lǐng)域表現(xiàn)出色，還可能引領(lǐng)一種全新的視覺語言模型訓(xùn)練潮流”。

“做一個勇于嘗試的引領(lǐng)者

比在風(fēng)口追隨著他人來得重要”

Om AI Lab背后的母公司聯(lián)匯科技，位于杭州濱江區(qū)互聯(lián)網(wǎng)產(chǎn)業(yè)園，這里曾是阿里、網(wǎng)易崛起的搖籃，互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)從這里走入我們的日常生活。

眼下，人工智能成了主角，這家公司正在致力于人工智能智能體平臺的應(yīng)用和落地。

趙天成學(xué)生時期就有一份漂亮的履歷：初中就讀于育才，高中考上杭二中；本科以全院第一的成績畢業(yè)于加州大學(xué)洛杉磯分校（UCLA）電子工程學(xué)士學(xué)位，隨后進(jìn)入卡耐基梅隆大學(xué)（CMU），取得計算機(jī)碩士與博士學(xué)位。

2月21日，由他帶隊的Om AI Lab，在上海舉行的2025全球開發(fā)者先鋒大會（GDC）上，帶去了基于R1強(qiáng)化學(xué)習(xí)的視覺理解多模態(tài)模型VLM-R1的首秀，以及開源大語言模型智能體評測平臺Open Agent Leaderboard。

趙天成攝影陳中秋

去年8月，趙天成在接受九千光年“新質(zhì)生產(chǎn)力青年”系列報道采訪時說，他始終記得當(dāng)年CMU求學(xué)時導(dǎo)師說的一句話，To be a leader, not a follower，做一個勇于嘗試的引領(lǐng)者遠(yuǎn)比在風(fēng)口追隨著他人來得重要。

（新聞回顧? ）

文 | 童蔚

VIEW MORE

@杭州四小龍：閃耀的“東方神秘力量” >>

@當(dāng)阿里不再是“該死的零售商” >>

@百度的2018和OpenAI的2025 >>

@“地球上最聰明的人工智能”含華量超標(biāo)>>

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

將DeepSeek帶到視覺領(lǐng)域，杭州90后博導(dǎo)帶領(lǐng)一群95后發(fā)布最新成果