金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
咱就是說啊,視覺基礎模型這塊兒,國產AI真就是上了個大分——
Glint-MVT,來自格靈深瞳的最新成果。
先來看下成績——線性探測(LinearProbing):
簡單來說,線性探測是一種測試預訓練模型效果的小技巧,測的就是基本功扎不扎實。它的做法是:
把模型最后一部分換成簡單的線性層,其他部分全部保持原樣不動;然后只訓練這個新加的線性層,通過它的表現來判斷模型之前學到的特征好不好用。
這個測試是在26個分類測試集中跟CLIP和OpenCLIP做了對比,結果顯示,國產視覺基礎模型平均準確率比OpenCLIP高2.3%,比CLIP高1.1%。
再來看應用效果。
如果說視覺基礎模型是一個底座,那么它的下游任務,像“圖像理解+分割一切”,便是更為直觀的效果展現。
例如下面這張圖片,然后我們可以問一下AI:
- 你能提供一個分割掩膜給這個圖像中觸摸籃球的人嗎?
很顯然,這個任務的難點在于拿籃球的人被其他人的手、身體等部位擋住,分割難度也大幅增加。
然而,國產AI是不在怕的,啪的一下,超精細地把要求的人物給摳了出來:
我們再來看下更加復雜的案例:
面對如此繁雜的圖片,不論要求AI分割哪種食物,它都能精準無誤地識別出來。
Glint-MVT中的MVT,全稱叫做Margin-based pretrained Vision Transformer,是團隊自研、設計的視覺預訓練Transformer模型。
它的一大亮點,就是創新性地把原先用于人臉識別的間隔Softmax(Margin Softmax)損失函數引入了進來,再通過構造百萬級虛擬類別訓練模型,顯著降低數據噪聲影響,提升泛化能力。
并且從實測和性能效果上來看,在各種專業下游任務中的表現,要比CLIP等其他ViT模型的結果更好。
在Glint-MVT這個底座之上,團隊針對引用表達分割(RES,Referring Expression Segmentation)和圖像理解,還分別訓練出了多模態模型:Glint-RefSeg模型和MVT-VLM模型。
Glint-RefSeg是無需特別搜集訓練就可以分割一切,從剛才的例子中也是感受到其實力,并且相比其他RES任務的模型,它取得了當前的SOTA。
至于MVT-VLM,它在圖像理解的實力,可以用下面的例子來展示:
- 請分別告訴我圖中運動員的性別以及衣服顏色和號碼。
即使圖片中紅衣服的號碼呈現出刁鉆的角度,它也能輕松識別:
那么Glint-MVT還有哪些效果,我們繼續來看。
視頻、具身智能都用上了
首先在分割這件事上,除了圖像之外,Glint-RefSeg也是可以用在視頻上的。
例如給定一段Bruno Mars的唱跳視頻,效果是這樣的:
視頻地址:
https://mp.weixin.qq.com/s/CXEGGF9tJUycreIpPgV98Q
可以看到,不論畫面、角度如何切換,任務要求的“穿粉色西裝的男子”,穩穩地被AI鎖定住了。
而且即使Bruno Mars動作幅度再大、變化再快,也絲毫不影響AI分割的效果,尤其是手部等細微之處,可以說是拿捏得相當到位。
而且除了傳統場景之外,像具身智能這樣的fashion場景,Glint-MVT也是用上了。
例如這樣:
在看完機械臂的操作之后,如果問AI:
- 把橙子放到白色碗里,(結果是)合適的嗎?請回答是或否。
AI就會根據當前的場景回答:
- 是。
從種種的效果來看,不得不說Glint-MVT這個視覺基礎模型,基本功是有夠扎實的。
那么接下來的一個問題就是:
怎么做到的?
正如我們剛才提到的,Glint-MVT技術核心亮點,就是把間隔Softmax引入了進來。
具體而言,Glint-MVT采用基于大類別分類的間隔Softmax損失函數進行訓練,通過引入 “類別間隔” 和 “特征緊湊性” 的雙重約束,解決傳統Softmax在大規模分類中語義區分不足的問題。
在此基礎上,格靈深瞳團隊提出了進一步的優化方案。
首先是虛擬類別構造。
團隊利用圖像文本特征聚類技術,將大規模數據集(如LAION 400M)劃分為100萬虛擬類別,替代傳統人工標注標簽,可以高效地提升數據規模。
其次是噪聲抑制與計算優化。
團隊在訓練時僅隨機選取部分負類中心(采樣比例約 10%),如此一來,就可以降低類別間沖突對模型的干擾,同時減少計算量和顯存占用。
相比CLIP的實例對比學習,間隔Softmax通過顯式建模類別間邊界,能讓模型更聚焦語義結構,在圖像檢索、分類等任務上表現更優。
以上就是Glint-MVT效果提升的關鍵,而Glint-RefSeg和MVT-VLM等模型也是基于這個大底座而來。
例如Glint-RefSeg采用MVT v1.1(MLCD)作為核心視覺編碼組件,并融合了大語言模型與SAM解碼器的技術優勢。
這一設計使得模型能夠理解用戶的自然語言描述,并精確識別和分割圖像中相應的目標對象,輸出高質量的分割掩膜。
并且從結果來看,已然是處于業界SOTA:
但格靈深瞳團隊在技術上的動作還遠不止于此。
他們已經將技術錨點鎖定到了更復雜的多模態大模型和視頻理解方面,而且也即將推出相應的模型:MVT v1.5和MVT v2.0(Video)。
視覺領域的精耕者
除了技術上的創新,格靈深瞳之所以能夠在視覺基礎模型上有如此的突破,團隊的發展,也是關鍵因素之一。
格靈深瞳可以說是國內計算機視覺領域的早期探索者,從2013年起便始終專注于視覺技術的研發與落地。
從早期的安防、金融行業解決方案,到如今聚焦視覺大模型與多模態技術,其技術演進始終圍繞一個核心:讓AI真正解決產業痛點。
這次發布的Glint-MVT就是對這句話非常好的詮釋。
因為它并非單純追求學術指標,而是通過提升下游任務(如分類、檢測、分割)的能力,為實際應用場景賦能。
由此可見,即便進入大模型時代,格靈深瞳依舊沒有盲目追逐參數規模和噱頭,而是堅持“從業務需求中來到產品落地中去”的研發邏輯。
與此同時,格靈深瞳還是一家主動擁抱開源,但拒絕跟風的企業。
它的開放策略目標非常明確,正如CEO吳一洲強調“回到初心,能貢獻什么就貢獻什么”,通過充分的開放和分享,期待能激發更多社區伙伴的創新,從而形成創新互哺的良性循環,伙伴越聚越多,技術越玩越強。她在公司里也鼓勵團隊“勇敢點”、“浪一點”。 她認為當下技術迭代快,但也更加進入了深水區,要更加擁有直面技術和應用本質的勇氣。
再如格靈深瞳算法研究院院長馮子勇,在2016年博士畢業之后,便加入格靈深瞳。
他帶領的格靈深瞳靈感實驗室,聚焦于視覺及相關模態特征表達與應用。主要研究方向有視覺基礎大模型、多模態大模型、圖文多模態表征、大規模分布式訓練等。
馮子勇主導了多項關鍵算法的技術攻關,特別在“人臉識別與聚類算法技術”以及“視頻解析算法技術”等專業領域取得了顯著成就。
例如在銀行場景中,實現了倒地檢測在上萬路攝像頭下實際使用,獲得客戶高度認可。相關技術在國際賽事中表現優異,還斬獲了OpenFAD2023人體動作識別競賽和首屆SkatingVerse花樣滑冰動作識別競賽雙料冠軍。
他所帶來的年輕化思維與豐富實踐經驗顯得格外寶貴。
而在格靈深瞳的身上,我們或許還能看到大模型時代發展的一個縮影——
既需要頭部玩家,也離不開格靈深瞳這樣的精耕者。
格靈深瞳堅持從場景中提煉技術、以開源回報生態的路徑,或許正是AI落地“最后一公里”的關鍵解法。
AI技術已從通用探索進入垂直深耕階段,不同企業需要像“打仗”一樣各司其職,找準自己的軍種角色,比盲目擴張更重要;格靈深瞳更像是“特種兵”,通過視覺基礎模型為下游任務提供訓練支持。
這種務實與開放并存的哲學,或許正是格靈深瞳在視覺長跑中持續領跑的密碼。
Glint-MVT體驗地址:
https://glint-mvt.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.