這項研究題為《I-Con: A Unifying Framework for Representation Learning》(I-Con:統一表示學習的框架),由麻省理工學院的Shaden Alshammari、谷歌的John Hershey、麻省理工學院的Axel Feldmann、麻省理工學院和谷歌的William T. Freeman以及麻省理工學院和微軟的Mark Hamilton共同完成。該論文發表于2025年國際學習表示會議(ICLR 2025),論文鏈接為https://aka.ms/i-con,預印本編號為arXiv:2504.16929v1。
一、表示學習的"元素周期表"
想象一下,化學家們在發現元素時的混亂狀態:各種元素看似毫無關聯,直到門捷列夫提出了元素周期表,突然間,所有元素之間的關系變得清晰可見。在機器學習領域,我們正處于類似的狀態——各種表示學習方法如雨后春筍般涌現,卻缺乏一個統一的理論框架來理解它們之間的聯系。
I-Con(Information Contrastive Learning,信息對比學習)就像是機器學習領域的"元素周期表",首次將23種常見的表示學習方法統一到一個簡單而優雅的數學公式中。從聚類到降維,從有監督學習到無監督學習,從單模態到多模態方法,I-Con展示了這些看似不同的方法實際上是同一個基本原理的變體。
傳統上,機器學習中的表示學習方法被劃分為不同的類別,研究人員在各自的"孤島"上工作,很少有跨領域的交流。例如,t-SNE是用于可視化的降維方法,而SimCLR是用于對比學習的方法,兩者看似風馬牛不相及。但研究團隊發現,這些方法實際上都在優化同一個目標:最小化兩個條件概率分布之間的KL散度。
二、一個公式統治所有方法
I-Con的核心思想非常簡潔:所有表示學習方法都可以歸結為一個單一的信息論方程。這個方程是什么呢?想象你有一堆數據點,比如一組圖片。對于每一張圖片,你都想知道它與其他圖片之間的"鄰居關系"。
在I-Con框架中,有兩種分布來描述這種鄰居關系:
一個"監督分布",告訴我們理想情況下哪些數據點應該被視為鄰居(例如,同一類別的圖片或同一圖片的不同增強版本)。
一個"學習分布",基于當前學到的特征表示來判斷哪些數據點應該被視為鄰居。
I-Con的核心公式非常簡單:
L(θ, φ) = 對所有數據點i求和[ KL散度(pθ(·|i) || qφ(·|i)) ]
其中pθ(j|i)表示在監督信號下,點j是點i的鄰居的概率;qφ(j|i)表示在學習到的表示下,點j是點i的鄰居的概率。這個公式的核心思想是:我們希望學習到的鄰居關系盡可能接近理想的監督鄰居關系。
這就像是教一個孩子認識水果:你告訴他"蘋果和梨子很像,但蘋果和香蕉不太像"(這是監督信號),然后孩子嘗試學習一種方法來判斷水果的相似性(這是學習到的表示),使得他的判斷盡可能接近你教給他的知識。
三、表示學習方法大統一
I-Con最令人驚訝的地方在于,通過選擇不同類型的監督分布和學習分布,我們可以重新創造出許多經典的表示學習方法。這就像是用同一套基本元素組合出不同的分子。
降維方法
以經典的降維方法SNE(隨機鄰居嵌入)為例,它的目標是將高維數據降低到低維空間,同時保持點與點之間的鄰居關系。在I-Con框架下,SNE的監督分布是基于原始高維空間中的距離的高斯分布,而學習分布是基于降維空間中的距離的高斯分布。
想象你在嘗試繪制一張世界地圖:原始的地球是三維的(高維空間),而地圖是二維的(低維空間)。SNE就像是一種方法,確保地圖上彼此接近的國家在現實世界中也是鄰國。
t-SNE是SNE的改進版本,它將學習分布從高斯分布改為t分布(一種"尾部更重"的分布),這樣可以更好地處理"擁擠問題",就像在擁擠的城市地圖上為每個地標提供足夠的空間。在I-Con框架下,這只是簡單地更改了分布類型。
PCA(主成分分析)是另一種常見的降維方法,在I-Con框架下,它相當于使用特殊的監督分布(每個點只與自己是鄰居)和特殊的學習分布(方差無限大的高斯分布)。
對比學習方法
對比學習是近年來自監督學習的主流方法,它學習的表示能使相似的樣本在特征空間中接近,不相似的樣本遠離。
以SimCLR為例,它的監督分布告訴我們:一張圖片的不同增強版本應該被視為鄰居,而其他圖片則不是。學習分布則基于特征空間中的余弦相似度計算鄰居關系。在I-Con框架下,這只是選擇了特定的監督分布和學習分布。
想象一下,你在教一個人識別不同的狗品種。你告訴他:"這兩張照片雖然角度不同,但都是同一只金毛犬"(這是監督信號)。然后他學習一種方法,根據照片的特征來判斷兩張照片是否是同一只狗(這是學習到的表示)。
SupCon(有監督對比學習)與SimCLR類似,但它的監督分布不僅考慮增強版本,還考慮同一類別的樣本都應該是鄰居。這就像告訴學生:"所有的金毛犬照片都應該歸為一類,與拉布拉多的照片區分開來。"
CLIP是一種跨模態對比學習方法,將圖像和文本聯系起來。在I-Con框架下,它的監督分布定義了圖像-文本對的鄰居關系,而學習分布則基于圖像和文本嵌入之間的相似度。
聚類方法
聚類是無監督學習的核心任務,目標是將相似的數據點分組到一起。
K-Means是最基本的聚類算法,在I-Con框架下,它的監督分布基于數據點之間的距離,而學習分布基于數據點與聚類中心的關系。當一個點被分配到某個聚類中心時,它與該聚類中的所有其他點都被視為鄰居。
這就像是將一群陌生人分組:監督信號告訴我們哪些人之間有相似的興趣(基于他們填寫的問卷),而學習到的分組則嘗試讓相似興趣的人在同一個小組中。
譜聚類是K-Means的改進版本,它首先構建一個圖,其中點之間的邊基于相似度,然后在這個圖上進行聚類。在I-Con框架下,這相當于使用基于圖結構的監督分布。
有監督學習方法
最后,I-Con也可以表示傳統的有監督學習方法,如交叉熵損失。在這種情況下,監督分布是基于類別標簽的,而學習分布是基于模型預測的類別概率。
想象你在教一個學生識別動物:你給他看一張獅子的照片,告訴他"這是獅子"(監督信號)。然后學生嘗試學習一種方法來預測照片中的動物類別(學習到的表示),使得他的預測盡可能接近正確答案。
四、I-Con的實際應用:提升無監督圖像分類性能
I-Con不僅僅是一個理論框架,研究團隊還展示了如何利用這個框架來改進現有的方法,特別是無監督圖像分類。
通過分析不同方法在I-Con框架下的聯系,研究人員發現了一種稱為"去偏置"的技術,可以顯著提高無監督圖像分類的性能。
所謂"去偏置",可以想象成是給每個數據點一個"意外交友"的機會。在傳統的對比學習中,我們明確定義哪些樣本是正樣本(鄰居),哪些是負樣本(非鄰居)。但這種硬性劃分可能會導致問題,因為有些被標記為負樣本的實際上可能應該是正樣本,只是我們不知道而已。
研究團隊提出了兩種去偏置方法:
統一分布去偏置:給每個"非鄰居"一個小概率,使其可能成為鄰居。這就像是在社交活動中,即使有些人看起來毫無共同點,我們也給他們一個相互了解的機會。
鄰居傳播去偏置:通過圖結構的隨機游走來擴展鄰居定義。這就像是"朋友的朋友也可能是朋友"的思想。
通過實驗,研究團隊發現這些去偏置方法可以顯著提高ImageNet-1K數據集上的無監督圖像分類性能,比之前最好的方法TEMI提高了8%。這種改進在不同大小的模型上都是一致的,表明這種方法具有普遍性。
五、I-Con的意義與未來展望
I-Con框架的提出不僅僅是學術上的進步,它還有深遠的實踐意義。
首先,它讓我們更深入地理解現有的表示學習方法,揭示了它們之間的聯系。就像元素周期表幫助化學家預測新元素的性質一樣,I-Con也可以幫助研究人員預測新方法的性能和特性。
其次,它為方法的改進和創新提供了明確的路徑。研究人員可以通過更改監督分布或學習分布,或者組合不同方法的優點,來創造新的表示學習算法。這就像是通過組合不同的樂高積木來創造新的結構。
最后,I-Con還促進了不同領域之間的知識交流。以前,聚類、降維和對比學習等領域往往各自為政,很少有跨領域的合作。現在,I-Con提供了一個統一的語言,讓這些領域可以互相借鑒。
在未來,研究團隊計劃進一步擴展I-Con框架,將更多的表示學習方法納入其中,并探索新的監督分布和學習分布組合。他們還計劃將I-Con應用于更多的實際問題,如跨模態學習、時序數據分析等。
結論
歸根結底,I-Con為表示學習領域帶來了一場小型革命。通過將眾多看似不同的方法統一到一個簡單的信息論框架中,它不僅加深了我們對這些方法的理解,還為創造新方法和改進現有方法提供了清晰的路徑。
就像物理學家夢想的"萬物理論"一樣,I-Con向我們展示了表示學習中的基本原理,揭示了看似復雜多樣的方法背后的簡單統一性。對于普通人來說,這意味著更好的圖像識別、更準確的推薦系統、更智能的虛擬助手——這些都依賴于高質量的表示學習。
如果你對這項研究感興趣,可以通過論文鏈接https://aka.ms/i-con查看完整論文,或者關注作者團隊的后續工作。表示學習的統一理論仍在發展中,而I-Con無疑是這一旅程中的重要里程碑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.