99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

巧妙!一個(gè)傳統(tǒng)技術(shù)讓國(guó)產(chǎn)視覺(jué)基礎(chǔ)模型直接上大分

0
分享至

金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

咱就是說(shuō)啊,視覺(jué)基礎(chǔ)模型這塊兒,國(guó)產(chǎn)AI真就是上了個(gè)大分——

Glint-MVT,來(lái)自格靈深瞳的最新成果。

先來(lái)看下成績(jī)——線性探測(cè)(LinearProbing):



簡(jiǎn)單來(lái)說(shuō),線性探測(cè)是一種測(cè)試預(yù)訓(xùn)練模型效果的小技巧,測(cè)的就是基本功扎不扎實(shí)。它的做法是:

把模型最后一部分換成簡(jiǎn)單的線性層,其他部分全部保持原樣不動(dòng);然后只訓(xùn)練這個(gè)新加的線性層,通過(guò)它的表現(xiàn)來(lái)判斷模型之前學(xué)到的特征好不好用。

這個(gè)測(cè)試是在26個(gè)分類(lèi)測(cè)試集中跟CLIP和OpenCLIP做了對(duì)比,結(jié)果顯示,國(guó)產(chǎn)視覺(jué)基礎(chǔ)模型平均準(zhǔn)確率比OpenCLIP高2.3%,比CLIP高1.1%。

再來(lái)看應(yīng)用效果。

如果說(shuō)視覺(jué)基礎(chǔ)模型是一個(gè)底座,那么它的下游任務(wù),像“圖像理解+分割一切”,便是更為直觀的效果展現(xiàn)。

例如下面這張圖片,然后我們可以問(wèn)一下AI:

  • 你能提供一個(gè)分割掩膜給這個(gè)圖像中觸摸籃球的人嗎?



很顯然,這個(gè)任務(wù)的難點(diǎn)在于拿籃球的人被其他人的手、身體等部位擋住,分割難度也大幅增加。

然而,國(guó)產(chǎn)AI是不在怕的,啪的一下,超精細(xì)地把要求的人物給摳了出來(lái):



我們?cè)賮?lái)看下更加復(fù)雜的案例:



面對(duì)如此繁雜的圖片,不論要求AI分割哪種食物,它都能精準(zhǔn)無(wú)誤地識(shí)別出來(lái)。

Glint-MVT中的MVT,全稱(chēng)叫做Margin-based pretrained Vision Transformer,是團(tuán)隊(duì)自研、設(shè)計(jì)的視覺(jué)預(yù)訓(xùn)練Transformer模型。

它的一大亮點(diǎn),就是創(chuàng)新性地把原先用于人臉識(shí)別的間隔Softmax(Margin Softmax)損失函數(shù)引入了進(jìn)來(lái),再通過(guò)構(gòu)造百萬(wàn)級(jí)虛擬類(lèi)別訓(xùn)練模型,顯著降低數(shù)據(jù)噪聲影響,提升泛化能力。

并且從實(shí)測(cè)和性能效果上來(lái)看,在各種專(zhuān)業(yè)下游任務(wù)中的表現(xiàn),要比CLIP等其他ViT模型的結(jié)果更好。

在Glint-MVT這個(gè)底座之上,團(tuán)隊(duì)針對(duì)引用表達(dá)分割(RES,Referring Expression Segmentation)和圖像理解,還分別訓(xùn)練出了多模態(tài)模型:Glint-RefSeg模型MVT-VLM模型

Glint-RefSeg是無(wú)需特別搜集訓(xùn)練就可以分割一切,從剛才的例子中也是感受到其實(shí)力,并且相比其他RES任務(wù)的模型,它取得了當(dāng)前的SOTA

至于MVT-VLM,它在圖像理解的實(shí)力,可以用下面的例子來(lái)展示:

  • 請(qǐng)分別告訴我圖中運(yùn)動(dòng)員的性別以及衣服顏色和號(hào)碼。

即使圖片中紅衣服的號(hào)碼呈現(xiàn)出刁鉆的角度,它也能輕松識(shí)別:



那么Glint-MVT還有哪些效果,我們繼續(xù)來(lái)看。

視頻、具身智能都用上了

首先在分割這件事上,除了圖像之外,Glint-RefSeg也是可以用在視頻上的。

例如給定一段Bruno Mars的唱跳視頻,效果是這樣的:



視頻地址:
https://mp.weixin.qq.com/s/CXEGGF9tJUycreIpPgV98Q

可以看到,不論畫(huà)面、角度如何切換,任務(wù)要求的“穿粉色西裝的男子”,穩(wěn)穩(wěn)地被AI鎖定住了。

而且即使Bruno Mars動(dòng)作幅度再大、變化再快,也絲毫不影響AI分割的效果,尤其是手部等細(xì)微之處,可以說(shuō)是拿捏得相當(dāng)?shù)轿弧?/p>

而且除了傳統(tǒng)場(chǎng)景之外,像具身智能這樣的fashion場(chǎng)景,Glint-MVT也是用上了。

例如這樣:



在看完機(jī)械臂的操作之后,如果問(wèn)AI:

  • 把橙子放到白色碗里,(結(jié)果是)合適的嗎?請(qǐng)回答是或否。

AI就會(huì)根據(jù)當(dāng)前的場(chǎng)景回答:

  • 是。

從種種的效果來(lái)看,不得不說(shuō)Glint-MVT這個(gè)視覺(jué)基礎(chǔ)模型,基本功是有夠扎實(shí)的。

那么接下來(lái)的一個(gè)問(wèn)題就是:

怎么做到的?

正如我們剛才提到的,Glint-MVT技術(shù)核心亮點(diǎn),就是把間隔Softmax引入了進(jìn)來(lái)。

具體而言,Glint-MVT采用基于大類(lèi)別分類(lèi)的間隔Softmax損失函數(shù)進(jìn)行訓(xùn)練,通過(guò)引入 “類(lèi)別間隔” 和 “特征緊湊性” 的雙重約束,解決傳統(tǒng)Softmax在大規(guī)模分類(lèi)中語(yǔ)義區(qū)分不足的問(wèn)題。

在此基礎(chǔ)上,格靈深瞳團(tuán)隊(duì)提出了進(jìn)一步的優(yōu)化方案。

首先是虛擬類(lèi)別構(gòu)造

團(tuán)隊(duì)利用圖像文本特征聚類(lèi)技術(shù),將大規(guī)模數(shù)據(jù)集(如LAION 400M)劃分為100萬(wàn)虛擬類(lèi)別,替代傳統(tǒng)人工標(biāo)注標(biāo)簽,可以高效地提升數(shù)據(jù)規(guī)模。

其次是噪聲抑制與計(jì)算優(yōu)化

團(tuán)隊(duì)在訓(xùn)練時(shí)僅隨機(jī)選取部分負(fù)類(lèi)中心(采樣比例約 10%),如此一來(lái),就可以降低類(lèi)別間沖突對(duì)模型的干擾,同時(shí)減少計(jì)算量和顯存占用

相比CLIP的實(shí)例對(duì)比學(xué)習(xí),間隔Softmax通過(guò)顯式建模類(lèi)別間邊界,能讓模型更聚焦語(yǔ)義結(jié)構(gòu),在圖像檢索、分類(lèi)等任務(wù)上表現(xiàn)更優(yōu)。

以上就是Glint-MVT效果提升的關(guān)鍵,而Glint-RefSeg和MVT-VLM等模型也是基于這個(gè)大底座而來(lái)。

例如Glint-RefSeg采用MVT v1.1(MLCD)作為核心視覺(jué)編碼組件,并融合了大語(yǔ)言模型與SAM解碼器的技術(shù)優(yōu)勢(shì)。

這一設(shè)計(jì)使得模型能夠理解用戶的自然語(yǔ)言描述,并精確識(shí)別和分割圖像中相應(yīng)的目標(biāo)對(duì)象,輸出高質(zhì)量的分割掩膜。

并且從結(jié)果來(lái)看,已然是處于業(yè)界SOTA:



但格靈深瞳團(tuán)隊(duì)在技術(shù)上的動(dòng)作還遠(yuǎn)不止于此。

他們已經(jīng)將技術(shù)錨點(diǎn)鎖定到了更復(fù)雜的多模態(tài)大模型和視頻理解方面,而且也即將推出相應(yīng)的模型:MVT v1.5和MVT v2.0(Video)。

視覺(jué)領(lǐng)域的精耕者

除了技術(shù)上的創(chuàng)新,格靈深瞳之所以能夠在視覺(jué)基礎(chǔ)模型上有如此的突破,團(tuán)隊(duì)的發(fā)展,也是關(guān)鍵因素之一。

格靈深瞳可以說(shuō)是國(guó)內(nèi)計(jì)算機(jī)視覺(jué)領(lǐng)域的早期探索者,從2013年起便始終專(zhuān)注于視覺(jué)技術(shù)的研發(fā)與落地。

從早期的安防、金融行業(yè)解決方案,到如今聚焦視覺(jué)大模型與多模態(tài)技術(shù),其技術(shù)演進(jìn)始終圍繞一個(gè)核心:讓AI真正解決產(chǎn)業(yè)痛點(diǎn)。



這次發(fā)布的Glint-MVT就是對(duì)這句話非常好的詮釋。

因?yàn)樗⒎菃渭冏非髮W(xué)術(shù)指標(biāo),而是通過(guò)提升下游任務(wù)(如分類(lèi)、檢測(cè)、分割)的能力,為實(shí)際應(yīng)用場(chǎng)景賦能。

由此可見(jiàn),即便進(jìn)入大模型時(shí)代,格靈深瞳依舊沒(méi)有盲目追逐參數(shù)規(guī)模和噱頭,而是堅(jiān)持“從業(yè)務(wù)需求中來(lái)到產(chǎn)品落地中去”的研發(fā)邏輯。

與此同時(shí),格靈深瞳還是一家主動(dòng)擁抱開(kāi)源,但拒絕跟風(fēng)的企業(yè)。

它的開(kāi)放策略目標(biāo)非常明確,正如CEO吳一洲強(qiáng)調(diào)“回到初心,能貢獻(xiàn)什么就貢獻(xiàn)什么”,通過(guò)充分的開(kāi)放和分享,期待能激發(fā)更多社區(qū)伙伴的創(chuàng)新,從而形成創(chuàng)新互哺的良性循環(huán),伙伴越聚越多,技術(shù)越玩越強(qiáng)。她在公司里也鼓勵(lì)團(tuán)隊(duì)“勇敢點(diǎn)”“浪一點(diǎn)”。 她認(rèn)為當(dāng)下技術(shù)迭代快,但也更加進(jìn)入了深水區(qū),要更加擁有直面技術(shù)和應(yīng)用本質(zhì)的勇氣。

再如格靈深瞳算法研究院院長(zhǎng)馮子勇,在2016年博士畢業(yè)之后,便加入格靈深瞳。

他帶領(lǐng)的格靈深瞳靈感實(shí)驗(yàn)室,聚焦于視覺(jué)及相關(guān)模態(tài)特征表達(dá)與應(yīng)用。主要研究方向有視覺(jué)基礎(chǔ)大模型、多模態(tài)大模型、圖文多模態(tài)表征、大規(guī)模分布式訓(xùn)練等。

馮子勇主導(dǎo)了多項(xiàng)關(guān)鍵算法的技術(shù)攻關(guān),特別在“人臉識(shí)別與聚類(lèi)算法技術(shù)”以及“視頻解析算法技術(shù)”等專(zhuān)業(yè)領(lǐng)域取得了顯著成就。

例如在銀行場(chǎng)景中,實(shí)現(xiàn)了倒地檢測(cè)在上萬(wàn)路攝像頭下實(shí)際使用,獲得客戶高度認(rèn)可。相關(guān)技術(shù)在國(guó)際賽事中表現(xiàn)優(yōu)異,還斬獲了OpenFAD2023人體動(dòng)作識(shí)別競(jìng)賽和首屆SkatingVerse花樣滑冰動(dòng)作識(shí)別競(jìng)賽雙料冠軍。

他所帶來(lái)的年輕化思維與豐富實(shí)踐經(jīng)驗(yàn)顯得格外寶貴。

而在格靈深瞳的身上,我們或許還能看到大模型時(shí)代發(fā)展的一個(gè)縮影——

既需要頭部玩家,也離不開(kāi)格靈深瞳這樣的精耕者。

格靈深瞳堅(jiān)持從場(chǎng)景中提煉技術(shù)、以開(kāi)源回報(bào)生態(tài)的路徑,或許正是AI落地“最后一公里”的關(guān)鍵解法。

AI技術(shù)已從通用探索進(jìn)入垂直深耕階段,不同企業(yè)需要像“打仗”一樣各司其職,找準(zhǔn)自己的軍種角色,比盲目擴(kuò)張更重要;格靈深瞳更像是“特種兵”,通過(guò)視覺(jué)基礎(chǔ)模型為下游任務(wù)提供訓(xùn)練支持。

這種務(wù)實(shí)與開(kāi)放并存的哲學(xué),或許正是格靈深瞳在視覺(jué)長(zhǎng)跑中持續(xù)領(lǐng)跑的密碼。

Glint-MVT體驗(yàn)地址:
https://glint-mvt.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
小別勝新婚是什么體驗(yàn)?網(wǎng)友:成年人的世界好污啊

小別勝新婚是什么體驗(yàn)?網(wǎng)友:成年人的世界好污啊

解讀熱點(diǎn)事件
2025-06-05 00:10:03
初代網(wǎng)紅獸獸近況:38歲顏值下滑,嫁富商生兩子,開(kāi)賬號(hào)熱度仍在

初代網(wǎng)紅獸獸近況:38歲顏值下滑,嫁富商生兩子,開(kāi)賬號(hào)熱度仍在

南南說(shuō)娛
2025-05-13 10:08:07
每體:如果有超過(guò)1200萬(wàn)歐的報(bào)價(jià),巴薩愿意談判出售馬丁

每體:如果有超過(guò)1200萬(wàn)歐的報(bào)價(jià),巴薩愿意談判出售馬丁

懂球帝
2025-06-08 17:32:10
如果一個(gè)國(guó)家強(qiáng)盛的目的不以老百姓福祉為宗旨,它的強(qiáng)盛毫無(wú)意義

如果一個(gè)國(guó)家強(qiáng)盛的目的不以老百姓福祉為宗旨,它的強(qiáng)盛毫無(wú)意義

逍遙論經(jīng)
2025-05-21 11:15:02
丈母娘來(lái)吃飯,我炒好菜去買(mǎi)酒,回來(lái)菜沒(méi)了,老婆說(shuō),把碗洗一下

丈母娘來(lái)吃飯,我炒好菜去買(mǎi)酒,回來(lái)菜沒(méi)了,老婆說(shuō),把碗洗一下

新時(shí)代的兩性情感
2025-06-08 18:59:44
男人為啥喜歡少婦呢?少女與少婦的區(qū)別是什么?

男人為啥喜歡少婦呢?少女與少婦的區(qū)別是什么?

加油丁小文
2025-05-31 11:00:03
長(zhǎng)沙暴雨致湖南中醫(yī)藥大學(xué)宿舍積水,有學(xué)生稱(chēng)兩年三淹,校方回應(yīng):正在消殺處理

長(zhǎng)沙暴雨致湖南中醫(yī)藥大學(xué)宿舍積水,有學(xué)生稱(chēng)兩年三淹,校方回應(yīng):正在消殺處理

上游新聞
2025-06-08 15:45:08
安徽游客被打后續(xù):副所長(zhǎng)被免職,打人老板身份曝光,果然不簡(jiǎn)單

安徽游客被打后續(xù):副所長(zhǎng)被免職,打人老板身份曝光,果然不簡(jiǎn)單

葉公子
2025-06-08 21:19:58
“上班照鏡子、下班不關(guān)電腦要罰款”!高管稱(chēng)一晚罰款進(jìn)賬大幾千,知名家居品牌回應(yīng)

“上班照鏡子、下班不關(guān)電腦要罰款”!高管稱(chēng)一晚罰款進(jìn)賬大幾千,知名家居品牌回應(yīng)

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-06-08 16:53:49
詩(shī)妮娜命運(yùn)又迎來(lái)大反轉(zhuǎn),泰王下旨召回宮,或與海外四子有關(guān)

詩(shī)妮娜命運(yùn)又迎來(lái)大反轉(zhuǎn),泰王下旨召回宮,或與海外四子有關(guān)

小嵩
2025-06-08 09:30:57
德國(guó)人眼里的中國(guó):從香港到深圳,我們穿過(guò)了兩個(gè)世界

德國(guó)人眼里的中國(guó):從香港到深圳,我們穿過(guò)了兩個(gè)世界

阿萊美食匯
2025-06-08 00:10:50
《長(zhǎng)安的荔枝》:一部兼具歷史與幽默的國(guó)產(chǎn)劇佳作解析

《長(zhǎng)安的荔枝》:一部兼具歷史與幽默的國(guó)產(chǎn)劇佳作解析

世界探索發(fā)現(xiàn)
2025-06-08 23:50:42
她們一邊做飯一邊賣(mài)淫

她們一邊做飯一邊賣(mài)淫

法律讀品
2025-05-05 17:24:28
5年2.5億頂薪,我們不想要你!NBA尷尬的球星,或許該考慮退役了

5年2.5億頂薪,我們不想要你!NBA尷尬的球星,或許該考慮退役了

老梁體育漫談
2025-06-07 00:04:13
湖南長(zhǎng)沙最可愛(ài)班主任,高考前給49名學(xué)生發(fā)紅包,寓意考上211

湖南長(zhǎng)沙最可愛(ài)班主任,高考前給49名學(xué)生發(fā)紅包,寓意考上211

娛樂(lè)的宅急便
2025-06-08 19:07:41
再打下去可能滅國(guó),三年前烏克蘭還有4300多萬(wàn)人,如今還有多少?

再打下去可能滅國(guó),三年前烏克蘭還有4300多萬(wàn)人,如今還有多少?

紅色鑒史官
2025-05-16 18:50:03
廣西男子被銀環(huán)蛇咬傷進(jìn)ICU官方發(fā)布97 家抗蛇毒血清儲(chǔ)備醫(yī)院名單

廣西男子被銀環(huán)蛇咬傷進(jìn)ICU官方發(fā)布97 家抗蛇毒血清儲(chǔ)備醫(yī)院名單

紅星觀察
2025-06-08 16:45:03
價(jià)格戰(zhàn)反對(duì)聲中,比亞迪發(fā)聲:我們不打價(jià)格戰(zhàn),只把價(jià)值反饋用戶

價(jià)格戰(zhàn)反對(duì)聲中,比亞迪發(fā)聲:我們不打價(jià)格戰(zhàn),只把價(jià)值反饋用戶

明鏡pro
2025-06-07 10:56:18
國(guó)腳名宿評(píng)價(jià)U16國(guó)少鄺兆鐳,前鋒三場(chǎng)不進(jìn)球就換下來(lái)了

國(guó)腳名宿評(píng)價(jià)U16國(guó)少鄺兆鐳,前鋒三場(chǎng)不進(jìn)球就換下來(lái)了

趙仔說(shuō)
2025-06-08 21:25:01
接到訪華邀請(qǐng)后,特朗普派三員大將參會(huì),對(duì)華釋放友好信號(hào)

接到訪華邀請(qǐng)后,特朗普派三員大將參會(huì),對(duì)華釋放友好信號(hào)

貓眼觀史
2025-06-08 00:08:38
2025-06-09 01:27:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10613文章數(shù) 176164關(guān)注度
往期回顧 全部

科技要聞

馬斯克"越紅線",美政府急尋SpaceX替代品

頭條要聞

女子花5000多元找收納師后曬圖 網(wǎng)友:我以為是收納前

頭條要聞

女子花5000多元找收納師后曬圖 網(wǎng)友:我以為是收納前

體育要聞

冠軍高芙:只要專(zhuān)注自己 太陽(yáng)就會(huì)照常升起

娛樂(lè)要聞

與前妻對(duì)簿公堂卻暴露了張紀(jì)中的窘境

財(cái)經(jīng)要聞

暴漲超9%!白銀狂飆,“搶奪”黃金光環(huán)!

汽車(chē)要聞

復(fù)古造型樂(lè)趣依舊 寶馬R12 nineT又帥又好騎

態(tài)度原創(chuàng)

旅游
藝術(shù)
本地
公開(kāi)課
軍事航空

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫(xiě)字都帶仙氣兒~

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

洛杉磯沖突加劇 特朗普派出2000名國(guó)民警衛(wèi)隊(duì)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 夹江县| 道真| 临西县| 新龙县| 城固县| 密山市| 保康县| 仁寿县| 黔南| 晴隆县| 澄江县| 台北县| 景泰县| 连南| 迭部县| 天全县| 益阳市| 万安县| 鸡西市| 独山县| 太康县| 汤原县| 新疆| 民乐县| 沂南县| 泰来县| 香港 | 柏乡县| 铁岭县| 朔州市| 车险| 栾川县| 抚远县| 石狮市| 且末县| 饶平县| 龙州县| 正镶白旗| 盐山县| 罗江县| 泰和县|