網易首頁 > 網易號 > 正文申請入駐

I-Con：統一表示學習的革命性框架

2025-04-26 15:02:45　來源: 科技行者

天津舉報

分享至

這項研究題為《I-Con: A Unifying Framework for Representation Learning》（I-Con：統一表示學習的框架），由麻省理工學院的Shaden Alshammari、谷歌的John Hershey、麻省理工學院的Axel Feldmann、麻省理工學院和谷歌的William T. Freeman以及麻省理工學院和微軟的Mark Hamilton共同完成。該論文發表于2025年國際學習表示會議（ICLR 2025），論文鏈接為https://aka.ms/i-con，預印本編號為arXiv:2504.16929v1。

一、表示學習的"元素周期表"

想象一下，化學家們在發現元素時的混亂狀態：各種元素看似毫無關聯，直到門捷列夫提出了元素周期表，突然間，所有元素之間的關系變得清晰可見。在機器學習領域，我們正處于類似的狀態——各種表示學習方法如雨后春筍般涌現，卻缺乏一個統一的理論框架來理解它們之間的聯系。

I-Con（Information Contrastive Learning，信息對比學習）就像是機器學習領域的"元素周期表"，首次將23種常見的表示學習方法統一到一個簡單而優雅的數學公式中。從聚類到降維，從有監督學習到無監督學習，從單模態到多模態方法，I-Con展示了這些看似不同的方法實際上是同一個基本原理的變體。

傳統上，機器學習中的表示學習方法被劃分為不同的類別，研究人員在各自的"孤島"上工作，很少有跨領域的交流。例如，t-SNE是用于可視化的降維方法，而SimCLR是用于對比學習的方法，兩者看似風馬牛不相及。但研究團隊發現，這些方法實際上都在優化同一個目標：最小化兩個條件概率分布之間的KL散度。

二、一個公式統治所有方法

I-Con的核心思想非常簡潔：所有表示學習方法都可以歸結為一個單一的信息論方程。這個方程是什么呢？想象你有一堆數據點，比如一組圖片。對于每一張圖片，你都想知道它與其他圖片之間的"鄰居關系"。

在I-Con框架中，有兩種分布來描述這種鄰居關系：

一個"監督分布"，告訴我們理想情況下哪些數據點應該被視為鄰居（例如，同一類別的圖片或同一圖片的不同增強版本）。
一個"學習分布"，基于當前學到的特征表示來判斷哪些數據點應該被視為鄰居。

I-Con的核心公式非常簡單：

L(θ, φ) = 對所有數據點i求和[ KL散度(pθ(·|i) || qφ(·|i)) ]

其中pθ(j|i)表示在監督信號下，點j是點i的鄰居的概率；qφ(j|i)表示在學習到的表示下，點j是點i的鄰居的概率。這個公式的核心思想是：我們希望學習到的鄰居關系盡可能接近理想的監督鄰居關系。

這就像是教一個孩子認識水果：你告訴他"蘋果和梨子很像，但蘋果和香蕉不太像"（這是監督信號），然后孩子嘗試學習一種方法來判斷水果的相似性（這是學習到的表示），使得他的判斷盡可能接近你教給他的知識。

三、表示學習方法大統一

I-Con最令人驚訝的地方在于，通過選擇不同類型的監督分布和學習分布，我們可以重新創造出許多經典的表示學習方法。這就像是用同一套基本元素組合出不同的分子。

降維方法

以經典的降維方法SNE(隨機鄰居嵌入)為例，它的目標是將高維數據降低到低維空間，同時保持點與點之間的鄰居關系。在I-Con框架下，SNE的監督分布是基于原始高維空間中的距離的高斯分布，而學習分布是基于降維空間中的距離的高斯分布。

想象你在嘗試繪制一張世界地圖：原始的地球是三維的（高維空間），而地圖是二維的（低維空間）。SNE就像是一種方法，確保地圖上彼此接近的國家在現實世界中也是鄰國。

t-SNE是SNE的改進版本，它將學習分布從高斯分布改為t分布（一種"尾部更重"的分布），這樣可以更好地處理"擁擠問題"，就像在擁擠的城市地圖上為每個地標提供足夠的空間。在I-Con框架下，這只是簡單地更改了分布類型。

PCA（主成分分析）是另一種常見的降維方法，在I-Con框架下，它相當于使用特殊的監督分布（每個點只與自己是鄰居）和特殊的學習分布（方差無限大的高斯分布）。

對比學習方法

對比學習是近年來自監督學習的主流方法，它學習的表示能使相似的樣本在特征空間中接近，不相似的樣本遠離。

以SimCLR為例，它的監督分布告訴我們：一張圖片的不同增強版本應該被視為鄰居，而其他圖片則不是。學習分布則基于特征空間中的余弦相似度計算鄰居關系。在I-Con框架下，這只是選擇了特定的監督分布和學習分布。

想象一下，你在教一個人識別不同的狗品種。你告訴他："這兩張照片雖然角度不同，但都是同一只金毛犬"（這是監督信號）。然后他學習一種方法，根據照片的特征來判斷兩張照片是否是同一只狗（這是學習到的表示）。

SupCon（有監督對比學習）與SimCLR類似，但它的監督分布不僅考慮增強版本，還考慮同一類別的樣本都應該是鄰居。這就像告訴學生："所有的金毛犬照片都應該歸為一類，與拉布拉多的照片區分開來。"

CLIP是一種跨模態對比學習方法，將圖像和文本聯系起來。在I-Con框架下，它的監督分布定義了圖像-文本對的鄰居關系，而學習分布則基于圖像和文本嵌入之間的相似度。

聚類方法

聚類是無監督學習的核心任務，目標是將相似的數據點分組到一起。

K-Means是最基本的聚類算法，在I-Con框架下，它的監督分布基于數據點之間的距離，而學習分布基于數據點與聚類中心的關系。當一個點被分配到某個聚類中心時，它與該聚類中的所有其他點都被視為鄰居。

這就像是將一群陌生人分組：監督信號告訴我們哪些人之間有相似的興趣（基于他們填寫的問卷），而學習到的分組則嘗試讓相似興趣的人在同一個小組中。

譜聚類是K-Means的改進版本，它首先構建一個圖，其中點之間的邊基于相似度，然后在這個圖上進行聚類。在I-Con框架下，這相當于使用基于圖結構的監督分布。

有監督學習方法

最后，I-Con也可以表示傳統的有監督學習方法，如交叉熵損失。在這種情況下，監督分布是基于類別標簽的，而學習分布是基于模型預測的類別概率。

想象你在教一個學生識別動物：你給他看一張獅子的照片，告訴他"這是獅子"（監督信號）。然后學生嘗試學習一種方法來預測照片中的動物類別（學習到的表示），使得他的預測盡可能接近正確答案。

四、I-Con的實際應用：提升無監督圖像分類性能

I-Con不僅僅是一個理論框架，研究團隊還展示了如何利用這個框架來改進現有的方法，特別是無監督圖像分類。

通過分析不同方法在I-Con框架下的聯系，研究人員發現了一種稱為"去偏置"的技術，可以顯著提高無監督圖像分類的性能。

所謂"去偏置"，可以想象成是給每個數據點一個"意外交友"的機會。在傳統的對比學習中，我們明確定義哪些樣本是正樣本（鄰居），哪些是負樣本（非鄰居）。但這種硬性劃分可能會導致問題，因為有些被標記為負樣本的實際上可能應該是正樣本，只是我們不知道而已。

研究團隊提出了兩種去偏置方法：

統一分布去偏置：給每個"非鄰居"一個小概率，使其可能成為鄰居。這就像是在社交活動中，即使有些人看起來毫無共同點，我們也給他們一個相互了解的機會。

鄰居傳播去偏置：通過圖結構的隨機游走來擴展鄰居定義。這就像是"朋友的朋友也可能是朋友"的思想。

通過實驗，研究團隊發現這些去偏置方法可以顯著提高ImageNet-1K數據集上的無監督圖像分類性能，比之前最好的方法TEMI提高了8%。這種改進在不同大小的模型上都是一致的，表明這種方法具有普遍性。

五、I-Con的意義與未來展望

I-Con框架的提出不僅僅是學術上的進步，它還有深遠的實踐意義。

首先，它讓我們更深入地理解現有的表示學習方法，揭示了它們之間的聯系。就像元素周期表幫助化學家預測新元素的性質一樣，I-Con也可以幫助研究人員預測新方法的性能和特性。

其次，它為方法的改進和創新提供了明確的路徑。研究人員可以通過更改監督分布或學習分布，或者組合不同方法的優點，來創造新的表示學習算法。這就像是通過組合不同的樂高積木來創造新的結構。

最后，I-Con還促進了不同領域之間的知識交流。以前，聚類、降維和對比學習等領域往往各自為政，很少有跨領域的合作。現在，I-Con提供了一個統一的語言，讓這些領域可以互相借鑒。

在未來，研究團隊計劃進一步擴展I-Con框架，將更多的表示學習方法納入其中，并探索新的監督分布和學習分布組合。他們還計劃將I-Con應用于更多的實際問題，如跨模態學習、時序數據分析等。

結論

歸根結底，I-Con為表示學習領域帶來了一場小型革命。通過將眾多看似不同的方法統一到一個簡單的信息論框架中，它不僅加深了我們對這些方法的理解，還為創造新方法和改進現有方法提供了清晰的路徑。

就像物理學家夢想的"萬物理論"一樣，I-Con向我們展示了表示學習中的基本原理，揭示了看似復雜多樣的方法背后的簡單統一性。對于普通人來說，這意味著更好的圖像識別、更準確的推薦系統、更智能的虛擬助手——這些都依賴于高質量的表示學習。

如果你對這項研究感興趣，可以通過論文鏈接https://aka.ms/i-con查看完整論文，或者關注作者團隊的后續工作。表示學習的統一理論仍在發展中，而I-Con無疑是這一旅程中的重要里程碑。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.