金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
咱就是說(shuō)啊,視覺(jué)基礎(chǔ)模型這塊兒,國(guó)產(chǎn)AI真就是上了個(gè)大分——
Glint-MVT,來(lái)自格靈深瞳的最新成果。
先來(lái)看下成績(jī)——線性探測(cè)(LinearProbing):
簡(jiǎn)單來(lái)說(shuō),線性探測(cè)是一種測(cè)試預(yù)訓(xùn)練模型效果的小技巧,測(cè)的就是基本功扎不扎實(shí)。它的做法是:
把模型最后一部分換成簡(jiǎn)單的線性層,其他部分全部保持原樣不動(dòng);然后只訓(xùn)練這個(gè)新加的線性層,通過(guò)它的表現(xiàn)來(lái)判斷模型之前學(xué)到的特征好不好用。
這個(gè)測(cè)試是在26個(gè)分類(lèi)測(cè)試集中跟CLIP和OpenCLIP做了對(duì)比,結(jié)果顯示,國(guó)產(chǎn)視覺(jué)基礎(chǔ)模型平均準(zhǔn)確率比OpenCLIP高2.3%,比CLIP高1.1%。
再來(lái)看應(yīng)用效果。
如果說(shuō)視覺(jué)基礎(chǔ)模型是一個(gè)底座,那么它的下游任務(wù),像“圖像理解+分割一切”,便是更為直觀的效果展現(xiàn)。
例如下面這張圖片,然后我們可以問(wèn)一下AI:
- 你能提供一個(gè)分割掩膜給這個(gè)圖像中觸摸籃球的人嗎?
很顯然,這個(gè)任務(wù)的難點(diǎn)在于拿籃球的人被其他人的手、身體等部位擋住,分割難度也大幅增加。
然而,國(guó)產(chǎn)AI是不在怕的,啪的一下,超精細(xì)地把要求的人物給摳了出來(lái):
我們?cè)賮?lái)看下更加復(fù)雜的案例:
面對(duì)如此繁雜的圖片,不論要求AI分割哪種食物,它都能精準(zhǔn)無(wú)誤地識(shí)別出來(lái)。
Glint-MVT中的MVT,全稱(chēng)叫做Margin-based pretrained Vision Transformer,是團(tuán)隊(duì)自研、設(shè)計(jì)的視覺(jué)預(yù)訓(xùn)練Transformer模型。
它的一大亮點(diǎn),就是創(chuàng)新性地把原先用于人臉識(shí)別的間隔Softmax(Margin Softmax)損失函數(shù)引入了進(jìn)來(lái),再通過(guò)構(gòu)造百萬(wàn)級(jí)虛擬類(lèi)別訓(xùn)練模型,顯著降低數(shù)據(jù)噪聲影響,提升泛化能力。
并且從實(shí)測(cè)和性能效果上來(lái)看,在各種專(zhuān)業(yè)下游任務(wù)中的表現(xiàn),要比CLIP等其他ViT模型的結(jié)果更好。
在Glint-MVT這個(gè)底座之上,團(tuán)隊(duì)針對(duì)引用表達(dá)分割(RES,Referring Expression Segmentation)和圖像理解,還分別訓(xùn)練出了多模態(tài)模型:Glint-RefSeg模型和MVT-VLM模型。
Glint-RefSeg是無(wú)需特別搜集訓(xùn)練就可以分割一切,從剛才的例子中也是感受到其實(shí)力,并且相比其他RES任務(wù)的模型,它取得了當(dāng)前的SOTA。
至于MVT-VLM,它在圖像理解的實(shí)力,可以用下面的例子來(lái)展示:
- 請(qǐng)分別告訴我圖中運(yùn)動(dòng)員的性別以及衣服顏色和號(hào)碼。
即使圖片中紅衣服的號(hào)碼呈現(xiàn)出刁鉆的角度,它也能輕松識(shí)別:
那么Glint-MVT還有哪些效果,我們繼續(xù)來(lái)看。
視頻、具身智能都用上了
首先在分割這件事上,除了圖像之外,Glint-RefSeg也是可以用在視頻上的。
例如給定一段Bruno Mars的唱跳視頻,效果是這樣的:
視頻地址:
https://mp.weixin.qq.com/s/CXEGGF9tJUycreIpPgV98Q
可以看到,不論畫(huà)面、角度如何切換,任務(wù)要求的“穿粉色西裝的男子”,穩(wěn)穩(wěn)地被AI鎖定住了。
而且即使Bruno Mars動(dòng)作幅度再大、變化再快,也絲毫不影響AI分割的效果,尤其是手部等細(xì)微之處,可以說(shuō)是拿捏得相當(dāng)?shù)轿弧?/p>
而且除了傳統(tǒng)場(chǎng)景之外,像具身智能這樣的fashion場(chǎng)景,Glint-MVT也是用上了。
例如這樣:
在看完機(jī)械臂的操作之后,如果問(wèn)AI:
- 把橙子放到白色碗里,(結(jié)果是)合適的嗎?請(qǐng)回答是或否。
AI就會(huì)根據(jù)當(dāng)前的場(chǎng)景回答:
- 是。
從種種的效果來(lái)看,不得不說(shuō)Glint-MVT這個(gè)視覺(jué)基礎(chǔ)模型,基本功是有夠扎實(shí)的。
那么接下來(lái)的一個(gè)問(wèn)題就是:
怎么做到的?
正如我們剛才提到的,Glint-MVT技術(shù)核心亮點(diǎn),就是把間隔Softmax引入了進(jìn)來(lái)。
具體而言,Glint-MVT采用基于大類(lèi)別分類(lèi)的間隔Softmax損失函數(shù)進(jìn)行訓(xùn)練,通過(guò)引入 “類(lèi)別間隔” 和 “特征緊湊性” 的雙重約束,解決傳統(tǒng)Softmax在大規(guī)模分類(lèi)中語(yǔ)義區(qū)分不足的問(wèn)題。
在此基礎(chǔ)上,格靈深瞳團(tuán)隊(duì)提出了進(jìn)一步的優(yōu)化方案。
首先是虛擬類(lèi)別構(gòu)造。
團(tuán)隊(duì)利用圖像文本特征聚類(lèi)技術(shù),將大規(guī)模數(shù)據(jù)集(如LAION 400M)劃分為100萬(wàn)虛擬類(lèi)別,替代傳統(tǒng)人工標(biāo)注標(biāo)簽,可以高效地提升數(shù)據(jù)規(guī)模。
其次是噪聲抑制與計(jì)算優(yōu)化。
團(tuán)隊(duì)在訓(xùn)練時(shí)僅隨機(jī)選取部分負(fù)類(lèi)中心(采樣比例約 10%),如此一來(lái),就可以降低類(lèi)別間沖突對(duì)模型的干擾,同時(shí)減少計(jì)算量和顯存占用。
相比CLIP的實(shí)例對(duì)比學(xué)習(xí),間隔Softmax通過(guò)顯式建模類(lèi)別間邊界,能讓模型更聚焦語(yǔ)義結(jié)構(gòu),在圖像檢索、分類(lèi)等任務(wù)上表現(xiàn)更優(yōu)。
以上就是Glint-MVT效果提升的關(guān)鍵,而Glint-RefSeg和MVT-VLM等模型也是基于這個(gè)大底座而來(lái)。
例如Glint-RefSeg采用MVT v1.1(MLCD)作為核心視覺(jué)編碼組件,并融合了大語(yǔ)言模型與SAM解碼器的技術(shù)優(yōu)勢(shì)。
這一設(shè)計(jì)使得模型能夠理解用戶的自然語(yǔ)言描述,并精確識(shí)別和分割圖像中相應(yīng)的目標(biāo)對(duì)象,輸出高質(zhì)量的分割掩膜。
并且從結(jié)果來(lái)看,已然是處于業(yè)界SOTA:
但格靈深瞳團(tuán)隊(duì)在技術(shù)上的動(dòng)作還遠(yuǎn)不止于此。
他們已經(jīng)將技術(shù)錨點(diǎn)鎖定到了更復(fù)雜的多模態(tài)大模型和視頻理解方面,而且也即將推出相應(yīng)的模型:MVT v1.5和MVT v2.0(Video)。
視覺(jué)領(lǐng)域的精耕者
除了技術(shù)上的創(chuàng)新,格靈深瞳之所以能夠在視覺(jué)基礎(chǔ)模型上有如此的突破,團(tuán)隊(duì)的發(fā)展,也是關(guān)鍵因素之一。
格靈深瞳可以說(shuō)是國(guó)內(nèi)計(jì)算機(jī)視覺(jué)領(lǐng)域的早期探索者,從2013年起便始終專(zhuān)注于視覺(jué)技術(shù)的研發(fā)與落地。
從早期的安防、金融行業(yè)解決方案,到如今聚焦視覺(jué)大模型與多模態(tài)技術(shù),其技術(shù)演進(jìn)始終圍繞一個(gè)核心:讓AI真正解決產(chǎn)業(yè)痛點(diǎn)。
這次發(fā)布的Glint-MVT就是對(duì)這句話非常好的詮釋。
因?yàn)樗⒎菃渭冏非髮W(xué)術(shù)指標(biāo),而是通過(guò)提升下游任務(wù)(如分類(lèi)、檢測(cè)、分割)的能力,為實(shí)際應(yīng)用場(chǎng)景賦能。
由此可見(jiàn),即便進(jìn)入大模型時(shí)代,格靈深瞳依舊沒(méi)有盲目追逐參數(shù)規(guī)模和噱頭,而是堅(jiān)持“從業(yè)務(wù)需求中來(lái)到產(chǎn)品落地中去”的研發(fā)邏輯。
與此同時(shí),格靈深瞳還是一家主動(dòng)擁抱開(kāi)源,但拒絕跟風(fēng)的企業(yè)。
它的開(kāi)放策略目標(biāo)非常明確,正如CEO吳一洲強(qiáng)調(diào)“回到初心,能貢獻(xiàn)什么就貢獻(xiàn)什么”,通過(guò)充分的開(kāi)放和分享,期待能激發(fā)更多社區(qū)伙伴的創(chuàng)新,從而形成創(chuàng)新互哺的良性循環(huán),伙伴越聚越多,技術(shù)越玩越強(qiáng)。她在公司里也鼓勵(lì)團(tuán)隊(duì)“勇敢點(diǎn)”、“浪一點(diǎn)”。 她認(rèn)為當(dāng)下技術(shù)迭代快,但也更加進(jìn)入了深水區(qū),要更加擁有直面技術(shù)和應(yīng)用本質(zhì)的勇氣。
再如格靈深瞳算法研究院院長(zhǎng)馮子勇,在2016年博士畢業(yè)之后,便加入格靈深瞳。
他帶領(lǐng)的格靈深瞳靈感實(shí)驗(yàn)室,聚焦于視覺(jué)及相關(guān)模態(tài)特征表達(dá)與應(yīng)用。主要研究方向有視覺(jué)基礎(chǔ)大模型、多模態(tài)大模型、圖文多模態(tài)表征、大規(guī)模分布式訓(xùn)練等。
馮子勇主導(dǎo)了多項(xiàng)關(guān)鍵算法的技術(shù)攻關(guān),特別在“人臉識(shí)別與聚類(lèi)算法技術(shù)”以及“視頻解析算法技術(shù)”等專(zhuān)業(yè)領(lǐng)域取得了顯著成就。
例如在銀行場(chǎng)景中,實(shí)現(xiàn)了倒地檢測(cè)在上萬(wàn)路攝像頭下實(shí)際使用,獲得客戶高度認(rèn)可。相關(guān)技術(shù)在國(guó)際賽事中表現(xiàn)優(yōu)異,還斬獲了OpenFAD2023人體動(dòng)作識(shí)別競(jìng)賽和首屆SkatingVerse花樣滑冰動(dòng)作識(shí)別競(jìng)賽雙料冠軍。
他所帶來(lái)的年輕化思維與豐富實(shí)踐經(jīng)驗(yàn)顯得格外寶貴。
而在格靈深瞳的身上,我們或許還能看到大模型時(shí)代發(fā)展的一個(gè)縮影——
既需要頭部玩家,也離不開(kāi)格靈深瞳這樣的精耕者。
格靈深瞳堅(jiān)持從場(chǎng)景中提煉技術(shù)、以開(kāi)源回報(bào)生態(tài)的路徑,或許正是AI落地“最后一公里”的關(guān)鍵解法。
AI技術(shù)已從通用探索進(jìn)入垂直深耕階段,不同企業(yè)需要像“打仗”一樣各司其職,找準(zhǔn)自己的軍種角色,比盲目擴(kuò)張更重要;格靈深瞳更像是“特種兵”,通過(guò)視覺(jué)基礎(chǔ)模型為下游任務(wù)提供訓(xùn)練支持。
這種務(wù)實(shí)與開(kāi)放并存的哲學(xué),或許正是格靈深瞳在視覺(jué)長(zhǎng)跑中持續(xù)領(lǐng)跑的密碼。
Glint-MVT體驗(yàn)地址:
https://glint-mvt.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.