網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

巧妙！一個(gè)傳統(tǒng)技術(shù)讓國(guó)產(chǎn)視覺(jué)基礎(chǔ)模型直接上大分

2025-05-23 14:20:11　來(lái)源: 量子位

北京舉報(bào)

分享至

金磊發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

咱就是說(shuō)啊，視覺(jué)基礎(chǔ)模型這塊兒，國(guó)產(chǎn)AI真就是上了個(gè)大分——

Glint-MVT，來(lái)自格靈深瞳的最新成果。

先來(lái)看下成績(jī)——線性探測(cè)（LinearProbing）：

簡(jiǎn)單來(lái)說(shuō)，線性探測(cè)是一種測(cè)試預(yù)訓(xùn)練模型效果的小技巧，測(cè)的就是基本功扎不扎實(shí)。它的做法是：

把模型最后一部分換成簡(jiǎn)單的線性層，其他部分全部保持原樣不動(dòng)；然后只訓(xùn)練這個(gè)新加的線性層，通過(guò)它的表現(xiàn)來(lái)判斷模型之前學(xué)到的特征好不好用。

這個(gè)測(cè)試是在26個(gè)分類(lèi)測(cè)試集中跟CLIP和OpenCLIP做了對(duì)比，結(jié)果顯示，國(guó)產(chǎn)視覺(jué)基礎(chǔ)模型平均準(zhǔn)確率比OpenCLIP高2.3%，比CLIP高1.1%。

再來(lái)看應(yīng)用效果。

如果說(shuō)視覺(jué)基礎(chǔ)模型是一個(gè)底座，那么它的下游任務(wù)，像“圖像理解+分割一切”，便是更為直觀的效果展現(xiàn)。

例如下面這張圖片，然后我們可以問(wèn)一下AI：

你能提供一個(gè)分割掩膜給這個(gè)圖像中觸摸籃球的人嗎？

很顯然，這個(gè)任務(wù)的難點(diǎn)在于拿籃球的人被其他人的手、身體等部位擋住，分割難度也大幅增加。

然而，國(guó)產(chǎn)AI是不在怕的，啪的一下，超精細(xì)地把要求的人物給摳了出來(lái)：

我們?cè)賮?lái)看下更加復(fù)雜的案例：

面對(duì)如此繁雜的圖片，不論要求AI分割哪種食物，它都能精準(zhǔn)無(wú)誤地識(shí)別出來(lái)。

Glint-MVT中的MVT，全稱(chēng)叫做Margin-based pretrained Vision Transformer，是團(tuán)隊(duì)自研、設(shè)計(jì)的視覺(jué)預(yù)訓(xùn)練Transformer模型。

它的一大亮點(diǎn)，就是創(chuàng)新性地把原先用于人臉識(shí)別的間隔Softmax（Margin Softmax）損失函數(shù)引入了進(jìn)來(lái)，再通過(guò)構(gòu)造百萬(wàn)級(jí)虛擬類(lèi)別訓(xùn)練模型，顯著降低數(shù)據(jù)噪聲影響，提升泛化能力。

并且從實(shí)測(cè)和性能效果上來(lái)看，在各種專(zhuān)業(yè)下游任務(wù)中的表現(xiàn)，要比CLIP等其他ViT模型的結(jié)果更好。

在Glint-MVT這個(gè)底座之上，團(tuán)隊(duì)針對(duì)引用表達(dá)分割（RES，Referring Expression Segmentation）和圖像理解，還分別訓(xùn)練出了多模態(tài)模型：Glint-RefSeg模型和MVT-VLM模型。

Glint-RefSeg是無(wú)需特別搜集訓(xùn)練就可以分割一切，從剛才的例子中也是感受到其實(shí)力，并且相比其他RES任務(wù)的模型，它取得了當(dāng)前的SOTA。

至于MVT-VLM，它在圖像理解的實(shí)力，可以用下面的例子來(lái)展示：

請(qǐng)分別告訴我圖中運(yùn)動(dòng)員的性別以及衣服顏色和號(hào)碼。

即使圖片中紅衣服的號(hào)碼呈現(xiàn)出刁鉆的角度，它也能輕松識(shí)別：

那么Glint-MVT還有哪些效果，我們繼續(xù)來(lái)看。

視頻、具身智能都用上了

首先在分割這件事上，除了圖像之外，Glint-RefSeg也是可以用在視頻上的。

例如給定一段Bruno Mars的唱跳視頻，效果是這樣的：

視頻地址：
https://mp.weixin.qq.com/s/CXEGGF9tJUycreIpPgV98Q

可以看到，不論畫(huà)面、角度如何切換，任務(wù)要求的“穿粉色西裝的男子”，穩(wěn)穩(wěn)地被AI鎖定住了。

而且即使Bruno Mars動(dòng)作幅度再大、變化再快，也絲毫不影響AI分割的效果，尤其是手部等細(xì)微之處，可以說(shuō)是拿捏得相當(dāng)?shù)轿弧?/p>

而且除了傳統(tǒng)場(chǎng)景之外，像具身智能這樣的fashion場(chǎng)景，Glint-MVT也是用上了。

例如這樣：

在看完機(jī)械臂的操作之后，如果問(wèn)AI：

把橙子放到白色碗里，（結(jié)果是）合適的嗎？請(qǐng)回答是或否。

AI就會(huì)根據(jù)當(dāng)前的場(chǎng)景回答：

是。

從種種的效果來(lái)看，不得不說(shuō)Glint-MVT這個(gè)視覺(jué)基礎(chǔ)模型，基本功是有夠扎實(shí)的。

那么接下來(lái)的一個(gè)問(wèn)題就是：

怎么做到的？

正如我們剛才提到的，Glint-MVT技術(shù)核心亮點(diǎn)，就是把間隔Softmax引入了進(jìn)來(lái)。

具體而言，Glint-MVT采用基于大類(lèi)別分類(lèi)的間隔Softmax損失函數(shù)進(jìn)行訓(xùn)練，通過(guò)引入 “類(lèi)別間隔” 和 “特征緊湊性” 的雙重約束，解決傳統(tǒng)Softmax在大規(guī)模分類(lèi)中語(yǔ)義區(qū)分不足的問(wèn)題。

在此基礎(chǔ)上，格靈深瞳團(tuán)隊(duì)提出了進(jìn)一步的優(yōu)化方案。

首先是虛擬類(lèi)別構(gòu)造。

團(tuán)隊(duì)利用圖像文本特征聚類(lèi)技術(shù)，將大規(guī)模數(shù)據(jù)集（如LAION 400M）劃分為100萬(wàn)虛擬類(lèi)別，替代傳統(tǒng)人工標(biāo)注標(biāo)簽，可以高效地提升數(shù)據(jù)規(guī)模。

其次是噪聲抑制與計(jì)算優(yōu)化。

團(tuán)隊(duì)在訓(xùn)練時(shí)僅隨機(jī)選取部分負(fù)類(lèi)中心（采樣比例約 10%），如此一來(lái)，就可以降低類(lèi)別間沖突對(duì)模型的干擾，同時(shí)減少計(jì)算量和顯存占用。

相比CLIP的實(shí)例對(duì)比學(xué)習(xí)，間隔Softmax通過(guò)顯式建模類(lèi)別間邊界，能讓模型更聚焦語(yǔ)義結(jié)構(gòu)，在圖像檢索、分類(lèi)等任務(wù)上表現(xiàn)更優(yōu)。

以上就是Glint-MVT效果提升的關(guān)鍵，而Glint-RefSeg和MVT-VLM等模型也是基于這個(gè)大底座而來(lái)。

例如Glint-RefSeg采用MVT v1.1（MLCD）作為核心視覺(jué)編碼組件，并融合了大語(yǔ)言模型與SAM解碼器的技術(shù)優(yōu)勢(shì)。

這一設(shè)計(jì)使得模型能夠理解用戶的自然語(yǔ)言描述，并精確識(shí)別和分割圖像中相應(yīng)的目標(biāo)對(duì)象，輸出高質(zhì)量的分割掩膜。

并且從結(jié)果來(lái)看，已然是處于業(yè)界SOTA：

但格靈深瞳團(tuán)隊(duì)在技術(shù)上的動(dòng)作還遠(yuǎn)不止于此。

他們已經(jīng)將技術(shù)錨點(diǎn)鎖定到了更復(fù)雜的多模態(tài)大模型和視頻理解方面，而且也即將推出相應(yīng)的模型：MVT v1.5和MVT v2.0（Video）。

視覺(jué)領(lǐng)域的精耕者

除了技術(shù)上的創(chuàng)新，格靈深瞳之所以能夠在視覺(jué)基礎(chǔ)模型上有如此的突破，團(tuán)隊(duì)的發(fā)展，也是關(guān)鍵因素之一。

格靈深瞳可以說(shuō)是國(guó)內(nèi)計(jì)算機(jī)視覺(jué)領(lǐng)域的早期探索者，從2013年起便始終專(zhuān)注于視覺(jué)技術(shù)的研發(fā)與落地。

從早期的安防、金融行業(yè)解決方案，到如今聚焦視覺(jué)大模型與多模態(tài)技術(shù)，其技術(shù)演進(jìn)始終圍繞一個(gè)核心：讓AI真正解決產(chǎn)業(yè)痛點(diǎn)。

這次發(fā)布的Glint-MVT就是對(duì)這句話非常好的詮釋。

因?yàn)樗⒎菃渭冏非髮W(xué)術(shù)指標(biāo)，而是通過(guò)提升下游任務(wù)（如分類(lèi)、檢測(cè)、分割）的能力，為實(shí)際應(yīng)用場(chǎng)景賦能。

由此可見(jiàn)，即便進(jìn)入大模型時(shí)代，格靈深瞳依舊沒(méi)有盲目追逐參數(shù)規(guī)模和噱頭，而是堅(jiān)持“從業(yè)務(wù)需求中來(lái)到產(chǎn)品落地中去”的研發(fā)邏輯。

與此同時(shí)，格靈深瞳還是一家主動(dòng)擁抱開(kāi)源，但拒絕跟風(fēng)的企業(yè)。

它的開(kāi)放策略目標(biāo)非常明確，正如CEO吳一洲強(qiáng)調(diào)“回到初心，能貢獻(xiàn)什么就貢獻(xiàn)什么”，通過(guò)充分的開(kāi)放和分享，期待能激發(fā)更多社區(qū)伙伴的創(chuàng)新，從而形成創(chuàng)新互哺的良性循環(huán)，伙伴越聚越多，技術(shù)越玩越強(qiáng)。她在公司里也鼓勵(lì)團(tuán)隊(duì)“勇敢點(diǎn)”、“浪一點(diǎn)”。她認(rèn)為當(dāng)下技術(shù)迭代快，但也更加進(jìn)入了深水區(qū)，要更加擁有直面技術(shù)和應(yīng)用本質(zhì)的勇氣。

再如格靈深瞳算法研究院院長(zhǎng)馮子勇，在2016年博士畢業(yè)之后，便加入格靈深瞳。

他帶領(lǐng)的格靈深瞳靈感實(shí)驗(yàn)室，聚焦于視覺(jué)及相關(guān)模態(tài)特征表達(dá)與應(yīng)用。主要研究方向有視覺(jué)基礎(chǔ)大模型、多模態(tài)大模型、圖文多模態(tài)表征、大規(guī)模分布式訓(xùn)練等。

馮子勇主導(dǎo)了多項(xiàng)關(guān)鍵算法的技術(shù)攻關(guān)，特別在“人臉識(shí)別與聚類(lèi)算法技術(shù)”以及“視頻解析算法技術(shù)”等專(zhuān)業(yè)領(lǐng)域取得了顯著成就。

例如在銀行場(chǎng)景中，實(shí)現(xiàn)了倒地檢測(cè)在上萬(wàn)路攝像頭下實(shí)際使用，獲得客戶高度認(rèn)可。相關(guān)技術(shù)在國(guó)際賽事中表現(xiàn)優(yōu)異，還斬獲了OpenFAD2023人體動(dòng)作識(shí)別競(jìng)賽和首屆SkatingVerse花樣滑冰動(dòng)作識(shí)別競(jìng)賽雙料冠軍。

他所帶來(lái)的年輕化思維與豐富實(shí)踐經(jīng)驗(yàn)顯得格外寶貴。

而在格靈深瞳的身上，我們或許還能看到大模型時(shí)代發(fā)展的一個(gè)縮影——

既需要頭部玩家，也離不開(kāi)格靈深瞳這樣的精耕者。

格靈深瞳堅(jiān)持從場(chǎng)景中提煉技術(shù)、以開(kāi)源回報(bào)生態(tài)的路徑，或許正是AI落地“最后一公里”的關(guān)鍵解法。

AI技術(shù)已從通用探索進(jìn)入垂直深耕階段，不同企業(yè)需要像“打仗”一樣各司其職，找準(zhǔn)自己的軍種角色，比盲目擴(kuò)張更重要；格靈深瞳更像是“特種兵”，通過(guò)視覺(jué)基礎(chǔ)模型為下游任務(wù)提供訓(xùn)練支持。

這種務(wù)實(shí)與開(kāi)放并存的哲學(xué)，或許正是格靈深瞳在視覺(jué)長(zhǎng)跑中持續(xù)領(lǐng)跑的密碼。

Glint-MVT體驗(yàn)地址：
https://glint-mvt.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.