CLIP 看不清的細節,FG-CLIP 看懂了
作者 | 謝春宇,王斌,360人工智能研究院
責編 | 夢依丹
出品丨AI 科技大本營(ID:rgznai100)
還在為搜圖不夠精準、推薦不夠懂你而煩惱?
360 人工智能研究院發布的全新 FG-CLIP(Fine Grained CLIP) 模型,讓 AI 也能像“老司機”一樣,練就“眼觀六路”的本領。
有了 FG-CLIP,它能瞬間辨別 “穿著淺藍色夾克的男人” vs “穿著草綠色夾克男人”、“陶瓷茶杯”與“玻璃茶杯”的細微差別,圖片被裁切也不怕,照樣精準識別目標,甚至連那張藏在小狗身后、位于畫面角落的淺棕色木凳子,它也不會放過。
這一突破性成果已被 AI 頂會 ICML 2025 接收,并已開源。
開源地址:https://github.com/360CVGroup/FG-CLIP
論文地址:https://www.arxiv.org/abs/2505.05071
從 OpenAI 2020 年發布 CLIP 模型至今,圖文跨模態技術已發展 5 年,廣泛應用于互聯網搜廣推、辦公檢索等領域。 然而,受限于基于圖文整體特征對齊的對比學習原理,初代 CLIP 模型因其基于圖文整體特征進行對齊的對比學習原理,一直存在圖文特征對齊粒度粗,無法實現圖文細粒度理解的核心難題,制約了它在搜索、推薦、識別中的應用效果。
針對這一核心難點,360 人工智能研究院冷大煒博士團隊基于前期在多模態理解與多模態生成領域的工作積累,研發了新一代的圖文跨模態模型 FG-CLIP,攻克了顯式雙塔結構下圖文信息的細粒度對齊難題。
FG-CLIP 亮點提煉:
顯式雙塔結構解耦: 突破傳統 CLIP 架構限制,首次在顯式雙塔結構下實現圖文細粒度對齊。
雙階段訓練策略: 采用全局對比學習+區域對比學習,由粗到精,讓模型既能把握全局,又能洞察細節。
難細粒度負樣本學習: 創新構建難負樣本,有效提升模型對細微語義差異的辨別能力。
跨模態對齊能力提升顯著:在 FG-OVD 等評測中,全面超越 CLIP/FineCLIP 等對比模型,展現出更強的局部識別與細節感知能力。
全開源發布:模型權重、訓練代碼、數據集全部開放,推動跨模態研究真正從實驗室走向產業化落地。
圖文跨模態模型
今天聊聊“圖文跨模態模型”,一個能在語義層面實現圖像信息和文字信息之間進行相互轉換的“翻譯官”。和能直接陪你聊天的 DeepSeek/豆包模型不同,這位 “翻譯官” 更像幕后的工程師 —— 你看不到它,但每天都在享受它的服務:找圖更快、推薦更準、辦公更省心…… 它就像科技產品的 “隱形默契搭檔”,讓體驗更懂你的需求。
大家平時刷到的那些“神操作” 其實都離不開它:比如用手機輸入文字就能生成動漫插畫、風景海報的繪圖軟件(Stable Diffusion、可圖),還有能把 “小貓追蝴蝶” 的文字描述變成動態視頻的工具(Sora、即夢),背后都需要這位 “翻譯官” 先把文字和圖片的信息 “翻譯” 成機器能懂的語言,讓兩者 “對上頻道”。
不只是這些有趣的應用,咱們日常生活里處處都有它的影子:
上網搜索:當你搜“海邊日落風景圖” 時,它能幫你精準找到匹配文字描述的圖片;
刷短視頻 / 逛購物 App:你看到的美食推薦、衣服穿搭內容,其實是它根據你的瀏覽習慣,把“你可能喜歡” 的文字標簽和圖片 / 視頻 “牽線搭橋”;
辦公軟件:比如用智能文檔問“如何做年度總結”,它能快速從海量資料里找到圖文結合的答案;
監控系統:商場、街道的攝像頭能自動識別“異常行為”,也是它在幫忙 “看圖說話”,快速判斷畫面里的情況。
視覺與語言的跨模態理解是大模型時代眾多關鍵技術與業務應用的核心基石,如多模態大語言模型,圖像生成模型,視頻生成模型等,都要用到圖文跨模態模型進行視覺信息和/或文本信息的編碼和模態對齊。與直接能與終端用戶交流對話的智能問答不同的是,圖文跨模態模型不被普通用戶所見,但大家每天可以通過各種產品如互聯網搜索,商品推薦,文檔辦公等來感受圖文跨模態模型給我們的生活帶來的上述現實便利。
當前普遍使用的圖文跨模態模型如 OpenAI CLIP,EVA-CLIP 等,仍是基于第一代的整體圖文對比學習算法訓練得到,它們擅長捕捉全局信息,卻難以分辨物體的細微屬性差異,在處理細粒度視覺理解時面臨非常大的挑戰。例如,區分“一只黑色的狗”與“一只深棕色的狗”,或識別“陶瓷茶杯”與“玻璃茶杯”的材質差異,往往會讓模型陷入困惑。攻克圖文跨模態模型存在的上述“近視”問題,提升模型對圖文局部細節的深度理解,是我們關注的一個重要研究課題。
視力大挑戰:找一找右邊的哪句話,正確描述了左邊圖像里的內容?答案在最右側。
可以發現,4 個常用模型:CLIP、EVACLIP、SIGLIP、FINE-CLIP 基于左側圖片選出的最匹配的文本描述是:A blue dog with a white colored head。顯然這個描述是錯誤的,這些模型因為“近視”問題忽略了目標的屬性匹配。正確答案是由今天我們要介紹的新模型 FG-CLIP 選出的 A light brown wood stool(一個淺棕色的木凳子),注意看,這個木凳子位于畫面的中央偏右,悄悄隱藏在狗狗的身后。
與現有模型相比,FG-CLIP 有效解決了前述的“近視”問題,在關鍵的長文本理解+細粒度比對上實現了大幅的雙突破。FG-CLIP 在細粒度理解、開放詞匯對象檢測、長短文本圖文檢索以及通用多模態基準測試等下游任務中均顯著優于原始 CLIP 和其他最先進方法。
模型方法
FG-CLIP 在傳統雙編碼器架構基礎上采用兩階段訓練策略,有效提升了視覺語言模型的細粒度理解能力。首階段通過全局對比學習實現圖文表征的初步對齊;次階段引入區域對比學習與難細粒度負樣本學習,利用區域-文本標注數據深化模型對視覺細節的感知能力,從而在保持全局語義理解的同時實現了對局部特征的精準捕捉。
全局對比學習
全局對比學習通過整合多模態大模型生成的長描述,顯著增強了模型的細粒度理解能力。這種方法不僅生成了內容豐富的長描述,還提供了更完整的上下文信息和更精準的細節描述。通過引入長描述,模型得以在全局層面感知和匹配語義細節,從而大幅提升了其上下文理解能力。同時,FG-CLIP 保留了原有的短描述-圖像對齊機制,使長短描述形成互補。這種雙軌并行的策略使模型既能從長描述中獲取復雜的語義信息,又能從短描述中把握核心概念,從而全面提升了模型對視覺信息的理解和處理能力。
局部對比學習
局部對比學習通過精準對齊圖像局部區域與對應文本描述,實現細粒度的視覺-語言關聯。具體而言,他們首先運用 RoIAlign 從圖像中精確提取區域特征,繼而對每個檢測區域施加平均池化操作,獲取一組富有代表性的區域級視覺表征。這些局部特征隨后與預先構建的細粒度文本描述進行對比學習,促使模型建立區域視覺內容與文本語義之間的精確映射關系,從而掌握更為細致的跨模態對齊能力。
區域級難負樣本對比學習
針對細粒度負樣本稀缺這一挑戰,他們提出了一種難細粒度負樣本學習方法,將語義相近但與正樣本存在細微差異的樣本定義為難負樣本,并通過對邊界框描述進行屬性層面的微調和重寫來構建這些樣本。為了充分利用難細粒度負樣本提供的判別信息,他們在損失函數中引入了特定的細粒度負樣本學習策略。在訓練過程中,模型需要同時計算區域特征與正樣本描述及其對應負樣本描述之間的相似度,從而學習更精細的視覺-語言對齊關系。
數據構建
通過 LMM 進行詳細的圖像描述重寫
在初始訓練階段,FG-CLIP 采用了經過增強優化的 LAION-2B 數據集,其中的圖像標注經由 CogVLM2-19B 重新生成。這種改進顯著提升了數據質量,使描述更加精確和內容豐富。傳統 LAION-2B 數據集往往采用籠統的描述方式,難以支持精細化任務的需求。以鳥類圖像為例,原始標注可能僅為"一只鳥",而忽略了物種特征和環境細節。
通過引入先進的多模態大模型,生成的描述不僅準確識別目標對象,還涵蓋了對象特征、行為模式及場景關聯等多維信息。舉例而言,簡單的"一只鳥"被優化為"一只紅翼黑鳥棲息在公園的樹枝上",大幅提升了描述的信息密度。借助 160×910B 規模的 NPU 計算集群,他們在 30 天內完成了全部數據處理工作。實驗結果顯示,這種優化顯著提升了模型在多個任務上的表現,充分證明了高質量文本標注對提升模型精確度和語境理解能力的關鍵作用。
創建高質量的視覺定位數據
對于訓練的第二階段,他們開發了一個高質量的視覺定位數據集,包含精確的區域特定描述和具有挑戰性的細粒度負樣本。他們根據 GRIT 提供的圖像來制作整個數據集。這一過程首先使用 CogVLM2-19B 生成詳細的圖像描述,確保描述全面且細膩,能夠捕捉每張圖像的全部背景信息。隨后,使用 SpaCy 解析這些描述并提取出指代表達。接著,將圖像和指代表達輸入預訓練的開放詞匯檢測模型,這里采用 Yolo-World 以獲得相應的邊界框。通過非極大值抑制消除重疊的邊界框,僅保留預測置信度得分高于 0.4 的邊界框。這一過程產生了 1200 萬張圖像和 4000 萬個帶有精細區域描述的邊界框。
為生成高質量的細粒度負樣本,他們在維持對象名稱不變的前提下,對邊界框描述的屬性進行精細調整。具體而言,借助 Llama-3.1-70B 大語言模型,為每個正樣本構建 10 個對應的負樣本。為提升描述的可讀性,他們移除了分號、逗號和換行符等標點符號。
經過對 3,000 個負樣本的質量評估,98.9% 的樣本達到預期標準,僅 1.1% 被判定為噪聲數據,這一比例符合無監督方法的可接受范圍。這種方法產生的細微變化更貼近現實場景,能夠更好地模擬物體在保持基本類目相似的同時,具體細節存在差異的情況。
這項大規模數據集由 1200 萬張高質量圖像構成,每張圖像都配備精確的語義描述。其中包含 4000 萬個邊界框標注,每個邊界框都附帶詳盡的區域描述,同時還整合了 1000 萬個經過篩選的難細粒度負樣本。數據處理階段調用了 160×910B 算力的 NPU 集群,歷時 7 天高效完成。這套豐富而系統的數據集顯著提升了模型識別精細特征的能力,為 FG-CLIP 的訓練奠定了扎實基礎,使其在視覺與文本特征的細粒度理解方面表現卓越。
實驗效果-量化指標
細粒度識別
FG-CLIP 研發團隊基于 FG-OVD 數據集對開源圖像-文本對齊模型進行了系統評估。與 MSCOCO 和 Flickr 等聚焦整體匹配的傳統基準不同,FG-OVD 專注于考察模型識別和定位圖像局部區域的精細化能力。在評估過程中,每個目標區域都配備了一個精準描述和十個經過精心設計的負向樣本,這些負向樣本通過對正確描述的策略性修改而生成。
FG-OVD 數據集劃分為四個難度遞進的子集,其區分度主要體現在待匹配文本之間的相似程度上。具體而言,hard、medium 和 easy 子集分別通過替換一個、兩個和三個屬性詞來構造負樣本,而 trivial 子集則采用完全無關的文本描述,形成了一個從細微差別到顯著差異的評估體系。由表中可以看到,FG-CLIP相對于其他方法,在各項指標上都能獲得顯著提升,這也證明了該方法在細粒度理解上的能力。
區域識別
他們在 COCO-val2017 數據集上開展零樣本測試,評估模型識別局部信息的能力,測試方案參照 FineCLIP 和 CLIPSelf。這項評估著重考察模型僅依靠文本描述對邊界框內目標進行分類的表現。具體實現中,FG-CLIP 利用數據集中的邊界框標注,結合 ROIAlign 技術提取局部區域的密集特征表示。在測試階段,將所有類別標簽作為候選文本輸入,對每個邊界框區域進行匹配和分類,并通過 Top-1 和 Top-5 準確率進行性能評估。FG-CLIP 同樣在這個下游任務上取得了最好的結果。
開放詞匯目標檢測
為了進一步評估 FG-CLIP 的方法的細粒度定位能力,他們采用 FG-CLIP 作為下游開放詞匯檢測任務的 Backbone。具體來說,采用了一個兩階段檢測架構F-VIT,并在訓練中凍結了視覺編碼器。從表格中可以看出,FG-CLIP在開放詞匯目標檢測任務上表現更加突出,證明了經過高質量數據和優化方法訓練的模型能夠在更深層次的任務上取得優越的性能。
圖文檢索/分類結果
為了全面評估圖像力度的任務,他們對長標題和短標題圖像文本檢索任務以及零樣本圖像分類任務進行了實驗。如表所示,FG-CLIP在長/短標題圖像-文本檢索任務中都取得了顯著的性能提升。與旨在提高細粒度識別能力的 Long-CLIP 和 FineCLIP 相比,FG-CLIP在圖像分類這種短文本-全圖問題上的準確率方面具有明顯優勢。該模型處理不同圖像描述長度的能力突出了其在多模態匹配中的通用性和魯棒性。
實驗效果-可視化對比
圖像細節差異效果對比
針對文本輸入對圖像特征進行了可視化。圖中,暖色調(如黃色)表示相關性較高,而冷色調(如藍色)表示相關性較低。首先是針對相同的輸入文本和圖像,對不同模型的 ViT 特征進行比較,可以發現 FG-CLIP 在這種細粒度理解問題上表現更好。如圖中的第二行所示,當輸入“Black nose”時,FG-CLIP 可以對該小目標實現準確的識別。
在不同輸入文本下的可視化圖
同樣將不同的輸入文本和相同圖片做相關性分析。可以發現,對于圖像中的不同目標,FG-CLIP都能給出準確的位置理解,這表明了該模型具有穩定的視覺定位和細粒度理解能力。
總結
FG-CLIP 在細粒度視覺理解領域取得了突破性進展。該模型創新性地整合了前沿圖文對齊技術,并基于大規模精選數據集和難細粒度負樣本學習策略,實現了對圖像的多層次語義解析。其獨特優勢在于能同時把握全局語境和局部細節,精準識別和區分細微特征差異。大量實驗結果表明,FG-CLIP 在各類下游任務中均展現出優異表現。
為推動領域發展,FG-CLIP 相關代碼和預訓練模型均已開源。未來他們的研究方向將聚焦于融合更先進的多模態架構,以及構建更豐富多元的訓練數據集,以進一步拓展細粒度視覺理解的技術邊界。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.