99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

將DeepSeek帶到視覺領(lǐng)域,杭州90后博導(dǎo)帶領(lǐng)一群95后發(fā)布最新成果

0
分享至


東坡肉、蘑菇炒青菜、清蒸鯽魚、蝦仁豆腐……做了滿滿一桌菜,拍張照片扔給AI,問它:圖片里的哪種食物蛋白質(zhì)含量最高?哪道菜尿酸偏高的人不宜多吃?

AI深度思考了幾秒鐘,打出推理全過程,最后在圖片上將答案圈了出來。

這是學(xué)會推理的多模態(tài)大模型,未來在日常生活中的一個應(yīng)用小場景。

此前,這種“長眼睛”、擅長推理的AI還停留在想象階段。不過最近,來自杭州Om AI Lab的一群95后,已經(jīng)成功地將DeepSeek-R1的訓(xùn)練方法,從純文本領(lǐng)域遷移到視覺語言領(lǐng)域,打開了多模態(tài)大模型的更多想象空間。

他們還將這個名叫VLM-R1的項(xiàng)目開源,發(fā)布在全球最大的代碼托管平臺GitHub上,上線僅一周,就獲得各國開發(fā)者給出的2.7k Stars(星標(biāo)),并在2月21日登上熱門趨勢榜。這一成績在這個開源社區(qū)里堪稱亮眼。


VLM-R1上線GitHub一周的Star(星標(biāo))數(shù)據(jù)曲線


2月21日上了GitHub熱門趨勢榜

這支研發(fā)團(tuán)隊的帶頭人,是個90后——Om AI Lab的創(chuàng)始人趙天成博士,他同時也是浙江大學(xué)濱江研究院Om人工智能中心主任、博士生導(dǎo)師。


將教DeepSeek-R1推理的方法

帶到機(jī)器視覺領(lǐng)域

DeepSeek-R1模型的獨(dú)特之處,在于DeepSeek對通用的模型推理步驟進(jìn)行了調(diào)整。此前,模型在提升推理能力時,通常依賴“監(jiān)督微調(diào)”(即SFT,監(jiān)督式微調(diào))這個環(huán)節(jié)。簡單點(diǎn)說,就是拿一個已經(jīng)學(xué)了不少東西的大模型,用一些特定的、標(biāo)記好的數(shù)據(jù),來教它如何更好地完成某個任務(wù)。這就好比你已會做菜,但具體到川菜或徽菜,還需通過專門的練習(xí)來掌握烹飪技巧。

而DeepSeek-R1在訓(xùn)練過程中直接跳過了這個環(huán)節(jié),進(jìn)入“強(qiáng)化學(xué)習(xí)”階段,探索大模型在沒有監(jiān)督數(shù)據(jù)的情況下,通過純強(qiáng)化學(xué)習(xí)進(jìn)行自我進(jìn)化。這種創(chuàng)新性的強(qiáng)化學(xué)習(xí)方法,有個專業(yè)名詞,叫群組相對策略優(yōu)化(Group Relative Policy Optimization,GRPO)。

GRPO已經(jīng)幫助DeepSeek-R1學(xué)習(xí)推理,那是否也能幫助AI模型在一般計算機(jī)視覺任務(wù)中表現(xiàn)得更強(qiáng)?

Om AI Lab研發(fā)團(tuán)隊反復(fù)實(shí)驗(yàn)后的答案是:可以。

他們在一個視覺定位任務(wù)中,訓(xùn)練了通義開源視覺理解模型Qwen2.5-VL。在此基礎(chǔ)上,同時用R1方法和SFT方法進(jìn)行對比。目前得出的結(jié)論是:R1方法在各種復(fù)雜場景下,都能保持穩(wěn)定的高性能。這在實(shí)際應(yīng)用時至關(guān)重要。

這是一張街景照片,給AI的任務(wù)是:定位出圖中可能對視障人士行走造成危險的物體。


在路邊人行道的場景里,人類能想到對視障人士造成行走障礙的,通常是石墩子、公交站牌、行人等,這些就是可以提前標(biāo)記好的“數(shù)據(jù)”。但在這張圖中,出現(xiàn)了一個比較特殊的情況——臺階。

從趙天成團(tuán)隊的實(shí)驗(yàn)看,經(jīng)過R1方法訓(xùn)練的AI模型,能夠成功推理出臺階在這個場景中會對視障人士造成危險。

“對人類來說,這屬于常識性推理,再容易不過。但對于此前傳統(tǒng)的計算機(jī)視覺模型而言,這其實(shí)非常難。”趙天成解釋。

又比如下面這張圖,桌子上放著山藥、雞蛋餅、毛豆、青菜、咖啡和橙子,讓AI定位圖中含維生素C最多的食物。


使用R1方法訓(xùn)練的AI模型,很快鎖定了橙子并附上思考過程。“以前它直給答案,不會告訴你解題思路,且錯誤率偏高,比如10道題最多答對四五題,而R1方法訓(xùn)練的,能答對七八題。

此外,機(jī)器學(xué)習(xí)領(lǐng)域有一種很常見的情況:用任務(wù)A去訓(xùn)練模型,隨著訓(xùn)練步數(shù)(訓(xùn)練模型所執(zhí)行的迭代次數(shù))的增加,在跟A沒有那么相似的任務(wù)B上,它的性能會變差(圖中紅色曲線)。“有點(diǎn)‘摁了葫蘆起了瓢’的意思。所以以前做多任務(wù)時,還要精心控制任務(wù)間的比例。”而使用R1方法訓(xùn)練的AI模型(圖中綠色曲線)并不會出現(xiàn)這種趨勢,這意味著R1方法能幫助模型真正“學(xué)會”理解視覺內(nèi)容,而不是簡單地記憶。


綠色曲線是使用R1方法訓(xùn)練,紅色曲線是使用傳統(tǒng)的SFT方法。


為視覺語言模型訓(xùn)練

打開了新思路

“實(shí)驗(yàn)從春節(jié)長假期間開始啟動。好在前期積累比較多,很多‘基礎(chǔ)設(shè)施’是現(xiàn)成的,有了想法后,能快速進(jìn)行實(shí)驗(yàn)、驗(yàn)證結(jié)果。”組成團(tuán)隊的10人,有研究院的研發(fā)人員,也有趙天成帶的博士生。

2月15日,趙天成在海外社交平臺上發(fā)布VLM-R1的實(shí)驗(yàn)結(jié)果,并將它開源、上傳到GitHub,截至2月22日,已獲得全球開發(fā)者們給出的2.7k Stars。


大大小小的交流切磋問題蜂擁而來:要訓(xùn)練多久,最低顯存是多少,能否再多分享幾個模型思考過程……

“雖然底層邏輯是相通的,但視覺和數(shù)學(xué)、代碼是完全不同的模態(tài)。怎么在視覺領(lǐng)域進(jìn)行設(shè)計,讓它真正跑通,團(tuán)隊其實(shí)也經(jīng)歷了多次試錯,才找到目前這樣一個比較有效的組合。”趙天成坦言,現(xiàn)在這個版本只能算是0.1版,遠(yuǎn)未達(dá)到成熟,“有一些問題,需要繼續(xù)用更多實(shí)驗(yàn)來解答。”

在他看來,這段時間的實(shí)驗(yàn),最大意義之一是為多模態(tài)模型的訓(xùn)練和行業(yè)提供了一些新的思路。它證明了R1方法的通用性,“不僅在文本領(lǐng)域表現(xiàn)出色,還可能引領(lǐng)一種全新的視覺語言模型訓(xùn)練潮流”。


“做一個勇于嘗試的引領(lǐng)者

比在風(fēng)口追隨著他人來得重要”

Om AI Lab背后的母公司聯(lián)匯科技,位于杭州濱江區(qū)互聯(lián)網(wǎng)產(chǎn)業(yè)園,這里曾是阿里、網(wǎng)易崛起的搖籃,互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)從這里走入我們的日常生活。

眼下,人工智能成了主角,這家公司正在致力于人工智能智能體平臺的應(yīng)用和落地。

趙天成學(xué)生時期就有一份漂亮的履歷:初中就讀于育才,高中考上杭二中;本科以全院第一的成績畢業(yè)于加州大學(xué)洛杉磯分校(UCLA)電子工程學(xué)士學(xué)位,隨后進(jìn)入卡耐基梅隆大學(xué)(CMU),取得計算機(jī)碩士與博士學(xué)位。

2月21日,由他帶隊的Om AI Lab,在上海舉行的2025全球開發(fā)者先鋒大會(GDC)上,帶去了基于R1強(qiáng)化學(xué)習(xí)的視覺理解多模態(tài)模型VLM-R1的首秀,以及開源大語言模型智能體評測平臺Open Agent Leaderboard。


趙天成 攝影 陳中秋

去年8月,趙天成在接受九千光年“新質(zhì)生產(chǎn)力青年”系列報道采訪時說,他始終記得當(dāng)年CMU求學(xué)時導(dǎo)師說的一句話,To be a leader, not a follower,做一個勇于嘗試的引領(lǐng)者遠(yuǎn)比在風(fēng)口追隨著他人來得重要。

新聞回顧? )

文 | 童蔚

VIEW MORE

@杭州四小龍:閃耀的“東方神秘力量” >>

@當(dāng)阿里不再是“該死的零售商” >>

@百度的2018和OpenAI的2025 >>

@“地球上最聰明的人工智能”含華量超標(biāo)>>

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

九千光年 incentive-icons
九千光年
在技術(shù)奇點(diǎn),和影響未來的人看“星辰大海”
1747文章數(shù) 5531關(guān)注度
往期回顧 全部

專題推薦

洞天福地 花海畢節(jié) 山水饋贈里的“詩與遠(yuǎn)方

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 吴川市| 凤台县| 双江| 漯河市| 沅陵县| 高唐县| 云和县| 长海县| 宜兰市| 高安市| 清河县| 沛县| 瓦房店市| 武定县| 盱眙县| 新余市| 兰考县| 金堂县| 南丹县| 福泉市| 芒康县| 西宁市| 西乌| 卢龙县| 宁河县| 育儿| 沙河市| 香格里拉县| 广南县| 尼木县| 孟州市| 岑溪市| 揭阳市| 老河口市| 香港 | 比如县| 筠连县| 南宁市| 本溪市| 旬阳县| 铜梁县|