99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

圖文跨模態“近視”問題破局:360開源新模型 FG-CLIP,實現細粒度圖文對齊突破|ICML2025

0
分享至


CLIP 看不清的細節,FG-CLIP 看懂了

作者 | 謝春宇,王斌,360人工智能研究院

責編 | 夢依丹

出品丨AI 科技大本營(ID:rgznai100)

還在為搜圖不夠精準、推薦不夠懂你而煩惱?

360 人工智能研究院發布的全新 FG-CLIP(Fine Grained CLIP) 模型,讓 AI 也能像“老司機”一樣,練就“眼觀六路”的本領。

有了 FG-CLIP,它能瞬間辨別 “穿著淺藍色夾克的男人” vs “穿著草綠色夾克男人”、“陶瓷茶杯”與“玻璃茶杯”的細微差別,圖片被裁切也不怕,照樣精準識別目標,甚至連那張藏在小狗身后、位于畫面角落的淺棕色木凳子,它也不會放過。


這一突破性成果已被 AI 頂會 ICML 2025 接收,并已開源。

  • 開源地址:https://github.com/360CVGroup/FG-CLIP

  • 論文地址:https://www.arxiv.org/abs/2505.05071

從 OpenAI 2020 年發布 CLIP 模型至今,圖文跨模態技術已發展 5 年,廣泛應用于互聯網搜廣推、辦公檢索等領域。 然而,受限于基于圖文整體特征對齊的對比學習原理,初代 CLIP 模型因其基于圖文整體特征進行對齊的對比學習原理,一直存在圖文特征對齊粒度粗,無法實現圖文細粒度理解的核心難題,制約了它在搜索、推薦、識別中的應用效果。

針對這一核心難點,360 人工智能研究院冷大煒博士團隊基于前期在多模態理解與多模態生成領域的工作積累,研發了新一代的圖文跨模態模型 FG-CLIP,攻克了顯式雙塔結構下圖文信息的細粒度對齊難題。


FG-CLIP 亮點提煉:

  • 顯式雙塔結構解耦: 突破傳統 CLIP 架構限制,首次在顯式雙塔結構下實現圖文細粒度對齊。

  • 雙階段訓練策略: 采用全局對比學習+區域對比學習,由粗到精,讓模型既能把握全局,又能洞察細節。

  • 難細粒度負樣本學習: 創新構建難負樣本,有效提升模型對細微語義差異的辨別能力。

  • 跨模態對齊能力提升顯著:在 FG-OVD 等評測中,全面超越 CLIP/FineCLIP 等對比模型,展現出更強的局部識別與細節感知能力。

  • 全開源發布:模型權重、訓練代碼、數據集全部開放,推動跨模態研究真正從實驗室走向產業化落地。


圖文跨模態模型

今天聊聊“圖文跨模態模型”,一個能在語義層面實現圖像信息和文字信息之間進行相互轉換的“翻譯官”。和能直接陪你聊天的 DeepSeek/豆包模型不同,這位 “翻譯官” 更像幕后的工程師 —— 你看不到它,但每天都在享受它的服務:找圖更快、推薦更準、辦公更省心…… 它就像科技產品的 “隱形默契搭檔”,讓體驗更懂你的需求。

大家平時刷到的那些“神操作” 其實都離不開它:比如用手機輸入文字就能生成動漫插畫、風景海報的繪圖軟件(Stable Diffusion、可圖),還有能把 “小貓追蝴蝶” 的文字描述變成動態視頻的工具(Sora、即夢),背后都需要這位 “翻譯官” 先把文字和圖片的信息 “翻譯” 成機器能懂的語言,讓兩者 “對上頻道”。

不只是這些有趣的應用,咱們日常生活里處處都有它的影子:

  • 上網搜索:當你搜“海邊日落風景圖” 時,它能幫你精準找到匹配文字描述的圖片;

  • 刷短視頻 / 逛購物 App:你看到的美食推薦、衣服穿搭內容,其實是它根據你的瀏覽習慣,把“你可能喜歡” 的文字標簽和圖片 / 視頻 “牽線搭橋”;

  • 辦公軟件:比如用智能文檔問“如何做年度總結”,它能快速從海量資料里找到圖文結合的答案;

  • 監控系統:商場、街道的攝像頭能自動識別“異常行為”,也是它在幫忙 “看圖說話”,快速判斷畫面里的情況。

視覺與語言的跨模態理解是大模型時代眾多關鍵技術與業務應用的核心基石,如多模態大語言模型,圖像生成模型,視頻生成模型等,都要用到圖文跨模態模型進行視覺信息和/或文本信息的編碼和模態對齊。與直接能與終端用戶交流對話的智能問答不同的是,圖文跨模態模型不被普通用戶所見,但大家每天可以通過各種產品如互聯網搜索,商品推薦,文檔辦公等來感受圖文跨模態模型給我們的生活帶來的上述現實便利。

當前普遍使用的圖文跨模態模型如 OpenAI CLIP,EVA-CLIP 等,仍是基于第一代的整體圖文對比學習算法訓練得到,它們擅長捕捉全局信息,卻難以分辨物體的細微屬性差異,在處理細粒度視覺理解時面臨非常大的挑戰。例如,區分“一只黑色的狗”與“一只深棕色的狗”,或識別“陶瓷茶杯”與“玻璃茶杯”的材質差異,往往會讓模型陷入困惑。攻克圖文跨模態模型存在的上述“近視”問題,提升模型對圖文局部細節的深度理解,是我們關注的一個重要研究課題。

視力大挑戰:找一找右邊的哪句話,正確描述了左邊圖像里的內容?答案在最右側。


可以發現,4 個常用模型:CLIP、EVACLIP、SIGLIP、FINE-CLIP 基于左側圖片選出的最匹配的文本描述是:A blue dog with a white colored head。顯然這個描述是錯誤的,這些模型因為“近視”問題忽略了目標的屬性匹配。正確答案是由今天我們要介紹的新模型 FG-CLIP 選出的 A light brown wood stool(一個淺棕色的木凳子),注意看,這個木凳子位于畫面的中央偏右,悄悄隱藏在狗狗的身后。

與現有模型相比,FG-CLIP 有效解決了前述的“近視”問題,在關鍵的長文本理解+細粒度比對上實現了大幅的雙突破。FG-CLIP 在細粒度理解、開放詞匯對象檢測、長短文本圖文檢索以及通用多模態基準測試等下游任務中均顯著優于原始 CLIP 和其他最先進方法。


模型方法

FG-CLIP 在傳統雙編碼器架構基礎上采用兩階段訓練策略,有效提升了視覺語言模型的細粒度理解能力。首階段通過全局對比學習實現圖文表征的初步對齊;次階段引入區域對比學習與難細粒度負樣本學習,利用區域-文本標注數據深化模型對視覺細節的感知能力,從而在保持全局語義理解的同時實現了對局部特征的精準捕捉。


全局對比學習

全局對比學習通過整合多模態大模型生成的長描述,顯著增強了模型的細粒度理解能力。這種方法不僅生成了內容豐富的長描述,還提供了更完整的上下文信息和更精準的細節描述。通過引入長描述,模型得以在全局層面感知和匹配語義細節,從而大幅提升了其上下文理解能力。同時,FG-CLIP 保留了原有的短描述-圖像對齊機制,使長短描述形成互補。這種雙軌并行的策略使模型既能從長描述中獲取復雜的語義信息,又能從短描述中把握核心概念,從而全面提升了模型對視覺信息的理解和處理能力。

局部對比學習

局部對比學習通過精準對齊圖像局部區域與對應文本描述,實現細粒度的視覺-語言關聯。具體而言,他們首先運用 RoIAlign 從圖像中精確提取區域特征,繼而對每個檢測區域施加平均池化操作,獲取一組富有代表性的區域級視覺表征。這些局部特征隨后與預先構建的細粒度文本描述進行對比學習,促使模型建立區域視覺內容與文本語義之間的精確映射關系,從而掌握更為細致的跨模態對齊能力。

區域級難負樣本對比學習

針對細粒度負樣本稀缺這一挑戰,他們提出了一種難細粒度負樣本學習方法,將語義相近但與正樣本存在細微差異的樣本定義為難負樣本,并通過對邊界框描述進行屬性層面的微調和重寫來構建這些樣本。為了充分利用難細粒度負樣本提供的判別信息,他們在損失函數中引入了特定的細粒度負樣本學習策略。在訓練過程中,模型需要同時計算區域特征與正樣本描述及其對應負樣本描述之間的相似度,從而學習更精細的視覺-語言對齊關系。


數據構建

通過 LMM 進行詳細的圖像描述重寫

在初始訓練階段,FG-CLIP 采用了經過增強優化的 LAION-2B 數據集,其中的圖像標注經由 CogVLM2-19B 重新生成。這種改進顯著提升了數據質量,使描述更加精確和內容豐富。傳統 LAION-2B 數據集往往采用籠統的描述方式,難以支持精細化任務的需求。以鳥類圖像為例,原始標注可能僅為"一只鳥",而忽略了物種特征和環境細節。

通過引入先進的多模態大模型,生成的描述不僅準確識別目標對象,還涵蓋了對象特征、行為模式及場景關聯等多維信息。舉例而言,簡單的"一只鳥"被優化為"一只紅翼黑鳥棲息在公園的樹枝上",大幅提升了描述的信息密度。借助 160×910B 規模的 NPU 計算集群,他們在 30 天內完成了全部數據處理工作。實驗結果顯示,這種優化顯著提升了模型在多個任務上的表現,充分證明了高質量文本標注對提升模型精確度和語境理解能力的關鍵作用。

創建高質量的視覺定位數據

對于訓練的第二階段,他們開發了一個高質量的視覺定位數據集,包含精確的區域特定描述和具有挑戰性的細粒度負樣本。他們根據 GRIT 提供的圖像來制作整個數據集。這一過程首先使用 CogVLM2-19B 生成詳細的圖像描述,確保描述全面且細膩,能夠捕捉每張圖像的全部背景信息。隨后,使用 SpaCy 解析這些描述并提取出指代表達。接著,將圖像和指代表達輸入預訓練的開放詞匯檢測模型,這里采用 Yolo-World 以獲得相應的邊界框。通過非極大值抑制消除重疊的邊界框,僅保留預測置信度得分高于 0.4 的邊界框。這一過程產生了 1200 萬張圖像和 4000 萬個帶有精細區域描述的邊界框。


為生成高質量的細粒度負樣本,他們在維持對象名稱不變的前提下,對邊界框描述的屬性進行精細調整。具體而言,借助 Llama-3.1-70B 大語言模型,為每個正樣本構建 10 個對應的負樣本。為提升描述的可讀性,他們移除了分號、逗號和換行符等標點符號。

經過對 3,000 個負樣本的質量評估,98.9% 的樣本達到預期標準,僅 1.1% 被判定為噪聲數據,這一比例符合無監督方法的可接受范圍。這種方法產生的細微變化更貼近現實場景,能夠更好地模擬物體在保持基本類目相似的同時,具體細節存在差異的情況。


這項大規模數據集由 1200 萬張高質量圖像構成,每張圖像都配備精確的語義描述。其中包含 4000 萬個邊界框標注,每個邊界框都附帶詳盡的區域描述,同時還整合了 1000 萬個經過篩選的難細粒度負樣本。數據處理階段調用了 160×910B 算力的 NPU 集群,歷時 7 天高效完成。這套豐富而系統的數據集顯著提升了模型識別精細特征的能力,為 FG-CLIP 的訓練奠定了扎實基礎,使其在視覺與文本特征的細粒度理解方面表現卓越。


實驗效果-量化指標

細粒度識別

FG-CLIP 研發團隊基于 FG-OVD 數據集對開源圖像-文本對齊模型進行了系統評估。與 MSCOCO 和 Flickr 等聚焦整體匹配的傳統基準不同,FG-OVD 專注于考察模型識別和定位圖像局部區域的精細化能力。在評估過程中,每個目標區域都配備了一個精準描述和十個經過精心設計的負向樣本,這些負向樣本通過對正確描述的策略性修改而生成。

FG-OVD 數據集劃分為四個難度遞進的子集,其區分度主要體現在待匹配文本之間的相似程度上。具體而言,hard、medium 和 easy 子集分別通過替換一個、兩個和三個屬性詞來構造負樣本,而 trivial 子集則采用完全無關的文本描述,形成了一個從細微差別到顯著差異的評估體系。由表中可以看到,FG-CLIP相對于其他方法,在各項指標上都能獲得顯著提升,這也證明了該方法在細粒度理解上的能力。


區域識別

他們在 COCO-val2017 數據集上開展零樣本測試,評估模型識別局部信息的能力,測試方案參照 FineCLIP 和 CLIPSelf。這項評估著重考察模型僅依靠文本描述對邊界框內目標進行分類的表現。具體實現中,FG-CLIP 利用數據集中的邊界框標注,結合 ROIAlign 技術提取局部區域的密集特征表示。在測試階段,將所有類別標簽作為候選文本輸入,對每個邊界框區域進行匹配和分類,并通過 Top-1 和 Top-5 準確率進行性能評估。FG-CLIP 同樣在這個下游任務上取得了最好的結果。


開放詞匯目標檢測

為了進一步評估 FG-CLIP 的方法的細粒度定位能力,他們采用 FG-CLIP 作為下游開放詞匯檢測任務的 Backbone。具體來說,采用了一個兩階段檢測架構F-VIT,并在訓練中凍結了視覺編碼器。從表格中可以看出,FG-CLIP在開放詞匯目標檢測任務上表現更加突出,證明了經過高質量數據和優化方法訓練的模型能夠在更深層次的任務上取得優越的性能。


圖文檢索/分類結果

為了全面評估圖像力度的任務,他們對長標題和短標題圖像文本檢索任務以及零樣本圖像分類任務進行了實驗。如表所示,FG-CLIP在長/短標題圖像-文本檢索任務中都取得了顯著的性能提升。與旨在提高細粒度識別能力的 Long-CLIP 和 FineCLIP 相比,FG-CLIP在圖像分類這種短文本-全圖問題上的準確率方面具有明顯優勢。該模型處理不同圖像描述長度的能力突出了其在多模態匹配中的通用性和魯棒性。



實驗效果-可視化對比

圖像細節差異效果對比

針對文本輸入對圖像特征進行了可視化。圖中,暖色調(如黃色)表示相關性較高,而冷色調(如藍色)表示相關性較低。首先是針對相同的輸入文本和圖像,對不同模型的 ViT 特征進行比較,可以發現 FG-CLIP 在這種細粒度理解問題上表現更好。如圖中的第二行所示,當輸入“Black nose”時,FG-CLIP 可以對該小目標實現準確的識別。


在不同輸入文本下的可視化圖

同樣將不同的輸入文本和相同圖片做相關性分析。可以發現,對于圖像中的不同目標,FG-CLIP都能給出準確的位置理解,這表明了該模型具有穩定的視覺定位和細粒度理解能力。



總結

FG-CLIP 在細粒度視覺理解領域取得了突破性進展。該模型創新性地整合了前沿圖文對齊技術,并基于大規模精選數據集和難細粒度負樣本學習策略,實現了對圖像的多層次語義解析。其獨特優勢在于能同時把握全局語境和局部細節,精準識別和區分細微特征差異。大量實驗結果表明,FG-CLIP 在各類下游任務中均展現出優異表現。

為推動領域發展,FG-CLIP 相關代碼和預訓練模型均已開源。未來他們的研究方向將聚焦于融合更先進的多模態架構,以及構建更豐富多元的訓練數據集,以進一步拓展細粒度視覺理解的技術邊界。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國發言人曾公開說:“中國已經做到最高程度的克制!

中國發言人曾公開說:“中國已經做到最高程度的克制!

老友科普
2025-06-13 20:05:01
母親病重,富豪舅舅不借一分,如今舅舅病危,他家人卻要來收拾我

母親病重,富豪舅舅不借一分,如今舅舅病危,他家人卻要來收拾我

特特農村生活
2025-06-13 14:56:55
退休夫婦花10萬“郵輪養老”:船上住15年,包吃包打掃,還能環游世界4圈,比在陸地上便宜得多!

退休夫婦花10萬“郵輪養老”:船上住15年,包吃包打掃,還能環游世界4圈,比在陸地上便宜得多!

背包旅行
2025-06-13 10:35:37
無需催生!中國最愿意生孩子的省,連續六年全國第一,根本不用催

無需催生!中國最愿意生孩子的省,連續六年全國第一,根本不用催

青眼財經
2025-06-13 13:05:29
有爆炸聲!多名深圳網友目擊:濃煙彌漫!香港官方回應

有爆炸聲!多名深圳網友目擊:濃煙彌漫!香港官方回應

FM93浙江交通之聲
2025-06-13 11:05:58
加州政府開始行動,特朗普意識到事情鬧大了,緊急喊話不想內戰

加州政府開始行動,特朗普意識到事情鬧大了,緊急喊話不想內戰

獵火照狼山
2025-06-13 20:00:05
印度墜機幸存者被發現時手持登機牌能行走,“起飛30秒后一聲巨響,然后飛機墜毀了”

印度墜機幸存者被發現時手持登機牌能行走,“起飛30秒后一聲巨響,然后飛機墜毀了”

魯中晨報
2025-06-13 07:02:05
6月13日,養老金調整通知公布了?定額標準提高,企退更受益嗎?

6月13日,養老金調整通知公布了?定額標準提高,企退更受益嗎?

曉風說
2025-06-13 12:35:09
朱婷最新消息!與姚迪同游四川,染發剪發心情不錯,恐難回國家隊

朱婷最新消息!與姚迪同游四川,染發剪發心情不錯,恐難回國家隊

跑者排球視角
2025-06-13 23:48:24
以色列官員:如果對伊朗的襲擊成功,在10天里對真主黨高級官員所做的,就相當于10分鐘內對伊朗所做的

以色列官員:如果對伊朗的襲擊成功,在10天里對真主黨高級官員所做的,就相當于10分鐘內對伊朗所做的

和訊網
2025-06-13 10:04:30
狂歡夢碎!“高考后才知道家里沒有1萬塊”,炸出多少家庭的無奈

狂歡夢碎!“高考后才知道家里沒有1萬塊”,炸出多少家庭的無奈

振華觀史
2025-06-13 16:19:12
經典伏擊戰術:德媒稱F-16越級斬殺蘇-35!俄羅斯五代機蘇-57在哪

經典伏擊戰術:德媒稱F-16越級斬殺蘇-35!俄羅斯五代機蘇-57在哪

鷹眼Defence
2025-06-11 17:19:59
福斯特今年季后賽吹罰雷霆4勝0負凈勝97分,吹罰步行者0勝2負凈負13分

福斯特今年季后賽吹罰雷霆4勝0負凈勝97分,吹罰步行者0勝2負凈負13分

雷速體育
2025-06-14 12:53:32
19歲學霸因差6分滿分跳樓身亡,更多內幕曝光,一細節諷刺至極

19歲學霸因差6分滿分跳樓身亡,更多內幕曝光,一細節諷刺至極

溫柔看世界
2025-06-12 11:57:26
“親媽做不出這種事”,女兒全程擋胸口母親還要拍照,2.6w人點贊

“親媽做不出這種事”,女兒全程擋胸口母親還要拍照,2.6w人點贊

熙熙說教
2025-06-10 20:42:31
新式床一出,榻榻米落伍!小臥室流行這么裝修,功能趕上兩間房

新式床一出,榻榻米落伍!小臥室流行這么裝修,功能趕上兩間房

時尚舒適家
2025-06-12 09:06:28
石破茂譴責以色列!

石破茂譴責以色列!

環球時報國際
2025-06-13 23:59:38
不管誰打來電話,這5種數字開頭的號碼不要隨意接聽,立馬掛斷

不管誰打來電話,這5種數字開頭的號碼不要隨意接聽,立馬掛斷

小俊分享
2025-06-12 18:34:19
無視普京警告,烏克蘭繼續復仇,俄損失慘重,莫斯科求助聯合國

無視普京警告,烏克蘭繼續復仇,俄損失慘重,莫斯科求助聯合國

美洲報姐
2025-06-12 15:28:10
問界M8首批車主畫像:高學歷為主 年均家庭收入53萬

問界M8首批車主畫像:高學歷為主 年均家庭收入53萬

手機中國
2025-06-13 14:13:09
2025-06-14 13:11:00
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術的創造者和使用者
2526文章數 7599關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

藝術
時尚
本地
房產
游戲

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

在時尚中國之夜,共赴榮耀東方時刻

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

SIE總裁稱PS+訂閱價格還會上漲 玩家更喜歡高級檔會員

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 吉木乃县| 深圳市| 喀喇| 红河县| 合阳县| 河南省| 嘉定区| 鹤壁市| 六盘水市| 左云县| 仪陇县| 石嘴山市| 乌拉特前旗| 蛟河市| 庄河市| 襄城县| 龙口市| 南召县| 醴陵市| 罗甸县| 襄城县| 大石桥市| 盐津县| 革吉县| 湖州市| 伊金霍洛旗| 南宫市| 全南县| 大新县| 玉环县| 太湖县| 平远县| 东辽县| 印江| 平远县| 天台县| 杭州市| 滁州市| 保德县| 自治县| 静安区|