文/李文斌
摘 要:
當前機器學(xué)習方法往往依賴大規(guī)模標注數(shù)據(jù),無法像人類那樣從少量樣本和標記中進行高效的學(xué)習和泛化。本文針對開放場景下存在的樣本稀缺、標記稀缺和計算資源稀缺等挑戰(zhàn),提出局部表征與度量的小樣本學(xué)習方法體系、基于親和矩陣的自監(jiān)督對比學(xué)習框架和基于類中心化約束的數(shù)據(jù)集蒸餾技術(shù),增強了開放場景下機器學(xué)習技術(shù)應(yīng)用能力。此外,簡要介紹以上研究所取得的代表性成果。
關(guān)鍵詞:
新型機器學(xué)習;小樣本學(xué)習;對比學(xué)習;數(shù)據(jù)集蒸餾
近年來,隨著計算設(shè)備計算能力的增強,大型標注數(shù)據(jù)的出現(xiàn),以及深度學(xué)習的迅猛發(fā)展,機器學(xué)習特別是深度學(xué)習,在計算機視覺和自然語言處理等領(lǐng)域取得了顯著的進步和成功。機器學(xué)習算法已經(jīng)在不少領(lǐng)域遠遠超越了人類,例如,殘差網(wǎng)絡(luò)ResNet 在 ImageNet 數(shù)據(jù)集上的分類準確率已經(jīng)遠超過人類,AlphaGo 在圍棋游戲上也遠勝于人類圍棋冠軍。然而,現(xiàn)有機器學(xué)習方法往往是在數(shù)據(jù)充足、標記完備,以及計算資源充裕的閉式場景下進行研究和驗證的,忽略了真實開放場景下數(shù)據(jù)可能是稀缺的、標記是不完備的,甚至計算資源是有限的。在真實開放應(yīng)用場景下,一方面數(shù)據(jù)常常呈現(xiàn)不規(guī)則及長尾分布的情況,對于某些特定的類別,數(shù)據(jù)往往是稀少的,即小樣本問題;另一方面,在某些場景中盡管能夠獲得大量數(shù)據(jù),但是標注的代價卻是昂貴的,即無標記問題。此外,在很多資源受限的應(yīng)用場景中,硬件的計算資源也是有限的,無法針對大量訓(xùn)練數(shù)據(jù)進行學(xué)習。在這些開放場景問題中,現(xiàn)有機器學(xué)習的能力遠遠達不到人類的智能。相反,人類能夠在開放環(huán)境中與周圍的環(huán)境進行交互,然后不斷學(xué)習和進化。特別地,人類能夠從很少的實例中學(xué)習新的概念,甚至從幼兒發(fā)育開始就能進行無監(jiān)督學(xué)習,并擁有很強的泛化能力。因此,如何利用有限少量的標注數(shù)據(jù)和大量無標注數(shù)據(jù),在有限的計算資源下進行學(xué)習,并使模型具有較高的泛化能力就成為一個很重要的研究問題。
1 樣本稀缺場景下的小樣本學(xué)習
針對開放場景中新類樣本稀缺的問題,即小樣本問題,現(xiàn)有研究主要構(gòu)建小樣本學(xué)習理論與方法進行解決,其核心是如何從一個額外的輔助數(shù)據(jù)集中學(xué)習和遷移有用的表征和知識來幫助解決目標新類的學(xué)習和識別。其中主要存在四個難點:① 知識遷移,如何從輔助數(shù)據(jù)集上學(xué)習和遷移知識或者特征表示?② 概念表征,如何精確且有效地表征一個類別?③ 圖像表征,如何精確且有效地表征一張圖像?④ 關(guān)系度量,如何有效地度量一個查詢圖像與一個類別之間的關(guān)系?
針對上述問題和難點,我們針對性地提出一套以局部表征學(xué)習為基底、新型度量函數(shù)設(shè)計為核心、元學(xué)習為驅(qū)動力的小樣本學(xué)習方法體系,相對于全局表征技術(shù),局部表征能夠天然擴充百倍樣本空間,有效緩解開放場景下機器學(xué)習算法對數(shù)據(jù)依賴過強的問題。小樣本學(xué)習問題中由于標記數(shù)據(jù)匱乏,采用傳統(tǒng)全局特征學(xué)習的方式,難以緩解由數(shù)據(jù)不足帶來的過擬合問題,我們創(chuàng)新地在小樣本學(xué)習中引入局部表征與局部度量學(xué)習,并產(chǎn)生了下述一系列創(chuàng)新成果。
(1)針對小樣本學(xué)習方法通常采用一階均值信息對類別進行表征的問題,我們提出一種基于豐富局部描述子特征的二階協(xié)方差類別表征方法CovaMNet;此外定義了一個新的深度協(xié)方差度量函數(shù) (covariance metric function),可以有效計算查詢樣本的局部描述子特征與類別概念之間的分布一致性。具體地,CovaMNet 通過引入情景訓(xùn)練來學(xué)習可遷移的知識,設(shè)計了一個局部協(xié)方差表示,并將其嵌入到深度神經(jīng)網(wǎng)絡(luò)中來學(xué)習表達每個類別。因為協(xié)方差表示提取的是二階統(tǒng)計信息,所以能夠天然地捕獲每個概念潛在的分布信息,故能夠成為一種很好的概念表征方法。
(2)為了更好利用和學(xué)習深度局部描述子特征,我們提出使用非量化的深度局部描述子對圖像和類別進行表征,以及一種圖像到類別的度量方法;專門設(shè)計了一個新穎的深度最近鄰神經(jīng)網(wǎng)絡(luò)(deepnearest neighbor neural network,DN4)模型。DN4遵循情景訓(xùn)練機制,并且是完全端到端訓(xùn)練的。它和現(xiàn)有相關(guān)的小樣本學(xué)習方法最核心的不同之處在于,深度網(wǎng)絡(luò)中最后分類層中,基于圖像級別特征的度量方式被替換成基于局部描述子的圖像到類別的度量方式。這種度量方式是通過在局部描述子池中進行 k-NN 搜索實現(xiàn)的,然而在大量的局部描述子的集合中進行最近鄰搜索非常耗費時間。幸運的是,小樣本學(xué)習下每個類別樣本不足的缺點反而變成了優(yōu)點,既能獲得較好的性能,又能保證高效的運行效率。
(3)我們發(fā)現(xiàn)以往的小樣本學(xué)習工作主要集中在圖像級的特征表示上,由于樣本的稀缺性,這種方法理論上無法有效地估計類的分布。因此,在局部表征的基礎(chǔ)上,提出非對稱分布測量(asymmetricdistribution measure,ADM)方法,采用由均值向量和協(xié)方差矩陣構(gòu)成局部特征分布對圖像樣本和圖像類別進行表征。此外,現(xiàn)有基于度量的小樣本學(xué)習方法均采用對稱假設(shè)來度量查詢圖像與支撐類別之間的關(guān)系,并不符合實際理論假設(shè)。針對該問題,提出一種非對稱度量假設(shè),進而提出一種基于局部特征分布的非對稱度量小樣本學(xué)習方法,證明了這種有偏的非對稱度量能取得更好的度量性能。
(4)我們還提出了一個新的防御型小樣本學(xué)習問題,考慮在小樣本場景下如何增強機器學(xué)習模型的安全性和魯棒性。然而,將現(xiàn)有樣本充裕場景下的對抗性防御方法直接應(yīng)用于小樣本場景中,并不能有效地解決這一問題。這是因為通常訓(xùn)練集和測試集之間的樣本分布一致性的假設(shè),在小樣本設(shè)置中不再滿足。為此研究如何學(xué)習魯棒的小樣本學(xué)習模型來防御對抗性攻擊,并驗證了基于情景的對抗訓(xùn)練機制可以遷移對抗防御性知識,通過假設(shè)任務(wù)級分布一致性來解決跨類別對抗防御問題;另外,驗證了基于局部特征的對抗訓(xùn)練技術(shù)相對于全局特征更能有效地提高模型的對抗防御能力。
最后,我們發(fā)現(xiàn)不同的小樣本學(xué)習工作可能會使用不同的軟件平臺、不同的訓(xùn)練技巧、不同的骨干網(wǎng)絡(luò),甚至不同的輸入圖像大小,這給可復(fù)現(xiàn)性帶來困難,并使得公平比較變得困難。為了解決這些問題,構(gòu)建并開源了一個統(tǒng)一的小樣本學(xué)習框架 LibFewshot。如圖 1 所示,該框架包含了 25 個2017—2022 年具有代表性的小樣本學(xué)習算法,為小樣本學(xué)習領(lǐng)域中算法對比采用統(tǒng)一框架、統(tǒng)一設(shè)置、實現(xiàn)公平對比等提供便利。該框架在開源社區(qū)受到廣泛的關(guān)注和討論,其 GitHub Star 數(shù)量 798、Fork數(shù)量 157。
圖 1 LibFewshot 框架
2標記稀缺場景下的自監(jiān)督對比學(xué)習
通過在大規(guī)模數(shù)據(jù)上進行訓(xùn)練,機器學(xué)習模型在多個任務(wù)中展現(xiàn)出了卓越性能。然而,機器學(xué)習的這些成功很大程度上依賴于大量完全標注數(shù)據(jù),但是在許多實際場景中,很難收集和標注如此大規(guī)模的數(shù)據(jù)集。一方面,我們無法在現(xiàn)實世界中為所有可能的類別收集足夠多的數(shù)據(jù);另一方面,標注特定種類的數(shù)據(jù)可能需要專業(yè)領(lǐng)域的知識,使得大規(guī)模標注非常困難。因此,針對開放場景下標記稀缺的問題,我們將自監(jiān)督對比學(xué)習和新類發(fā)現(xiàn)作為主要研究方向,增強在標記稀缺場景下的通用視覺表征能力,并利用有標記樣本在無標記數(shù)據(jù)中發(fā)現(xiàn)新的類別。
自監(jiān)督對比學(xué)習通過使用大量無標簽數(shù)據(jù),利用實例判別的前置任務(wù),訓(xùn)練一個具有通用視覺特征能力的神經(jīng)網(wǎng)絡(luò),能夠在下游特定的任務(wù)取得接近有監(jiān)督訓(xùn)練甚至更好的效果。現(xiàn)有自監(jiān)督對比學(xué)習方法可以分成四類,即基于正負樣本對比的方法、基于正樣本的方法、基于特征去相關(guān)的方法和基于一致性正則化的方法。我們提出了一個基于親和矩陣的自監(jiān)督對比學(xué)習框架 UniCLR,最大化地統(tǒng)一以上的四類方法。盡管這些方法從動機到具體實施的手段都有不同,我們發(fā)現(xiàn)從親和矩陣的角度出發(fā),能夠?qū)⑦@些方法通過同一個視角都統(tǒng)一起來。從這個角度來看,當前的絕大多數(shù)自監(jiān)督對比學(xué)習方法都可以看作是 UniCLR 的特例或者變體;也就是說,UniCLR 具有較高的靈活性和可擴展性。基于 UniCLR 框架,我們首先提出了 SimAffinity 方法,使用交叉熵損失函數(shù)直接優(yōu)化不同分支特征的親和矩陣;之后,提出了 SimWhitening 方法,在SimAffinity 的基礎(chǔ)上加上了白化操作;最后,基于白化操作的 SimWhitening,進一步提出了 SimTrace方法,去掉了 SimWhitening 中的負樣本,僅使用正樣本的對比學(xué)習進行網(wǎng)絡(luò)優(yōu)化。SimTrace 不依賴其他的非對稱網(wǎng)絡(luò)設(shè)計,以及其他的正則項來防止模式崩潰。另外還提出了一種新的一致性正則化方法——對稱損失,能夠加速自監(jiān)督對比學(xué)習的收斂過程。方法結(jié)構(gòu)如圖 2 所示,圖中,①代表對稱損失;②代表基于正負樣本對比的 Affinity 損失;③代表白化操作;④代表使用親和矩陣的負跡損失。
圖 2 中,UniCLR 框架使用和其他方法相同的兩條分支結(jié)構(gòu)。具體而言,我們將輸入圖像通過數(shù)據(jù)增廣得到兩組不同的圖像,并且送入特征提取網(wǎng)絡(luò)得到兩組特征;然后計算兩組特征之間的親和矩陣(相似性矩陣),通過不同方式最大化相似性矩陣對角線上的值,也就是同一對樣本的相似度。
圖 2 UniCLR 方法結(jié)構(gòu)
表 1 展示了我們在 ImageNet1K 數(shù)據(jù)集上和其他先進方法的對比結(jié)果。從結(jié)果中可以看到,我們方法的三種變體都能夠取得較高的結(jié)果。在 200 輪次的自監(jiān)督預(yù)訓(xùn)練的測試結(jié)果中,SimAffinity、SimWhitening 和 SimTrace 都能夠取得相較于已有的方法來說更高的結(jié)果。SimAffinity 能夠取得 73.8%的 Top-1 準確率,相較于 SimSiam、DINO,以及BYOL 能夠分別取得 3.8%、3.6% 和 3.2% 的提升。當進行更長(400、800 輪)的訓(xùn)練時,UniCLR 也能夠取得更好的結(jié)果。例如,當進行 800 輪的訓(xùn)練時,SimAffinity 可以取得 75.6% 的準確率,超過了SwAV 以及 DINO 相同訓(xùn)練輪次的結(jié)果,同時超過了 Barlow Twins、VICReg 和 BYOL 訓(xùn)練 1 000 輪的結(jié)果。
表 1 在 ImageNet1K 上自監(jiān)督預(yù)訓(xùn)練的結(jié)果與先進結(jié)果的對比
新類發(fā)現(xiàn)任務(wù),試圖利用已有的標注數(shù)據(jù),在無標注數(shù)據(jù)中自動發(fā)現(xiàn)新的視覺類別。給定一個有標簽數(shù)據(jù)集和一個無標簽數(shù)據(jù)集,新類發(fā)現(xiàn)的目標是通過有標簽數(shù)據(jù)集中蘊含的潛在語義信息,訓(xùn)練深度學(xué)習模型,使其能夠?qū)⑦@些信息遷移至無標簽數(shù)據(jù)集,從而識別其中的新類別。我們基于對稱 KL 散 度(symmetric Kullback-Leiblerdivergence,sKLD)提出了 IIC(inter-class and intra class constraints)方法,來對新類發(fā)現(xiàn)任務(wù)中的類間和類內(nèi)約束進行建模。具體來說,首先提出了一個類間約束來有效地利用有標簽類別和無標簽類別之間的不相交關(guān)系,保證不同類別在嵌入空間中的可分性;其次還提出了一個類內(nèi)約束,用于確保每個樣本與其增廣樣本之間的內(nèi)部關(guān)系,同時該約束也可以保證整個模型訓(xùn)練過程的穩(wěn)定性。整體方法結(jié)構(gòu),如圖 3 所示。
圖 3 IIC 方法結(jié)構(gòu)
圖 3 中,藍色表示“原始部分”(包括有標簽樣本 xil、無標簽樣本 xiu 及其對應(yīng)的原始預(yù)測值和概率分布);綠色表示“增廣部分”(包括有標簽樣本的增廣 、無標簽樣本的增廣及其對應(yīng)的原始預(yù)測值和概率分布)。IIC 方法整體結(jié)構(gòu)由一個編碼器 E,以及兩個分類頭 h 和 g 兩部分組成。編碼器 E 在具體實驗中被實現(xiàn)為一個標準的卷積神經(jīng)網(wǎng)絡(luò)(CNN),它將輸入的圖像轉(zhuǎn)換為對應(yīng)的特征向量。用于有標簽數(shù)據(jù)的分類頭 h,被實現(xiàn)為一個擁有 cl個輸出單元的線性分類器;而用于無標簽數(shù)據(jù)的分類頭 g,由一個多層感知機(MLP)和一個擁有 cu 個輸出單元的線性分類器組成。在訓(xùn)練階段,每個樣本 xi 首先被 E 編碼為特征向量,然后分別通過兩個分類頭獲得對應(yīng)的原始預(yù)測值(logits)
表 2 展示了新類發(fā)現(xiàn)方法使用任務(wù)感知評估協(xié)議在無標簽子集的訓(xùn)練圖像上的聚類精度,實驗結(jié)果在標簽子集的訓(xùn)練數(shù)據(jù)上以聚類精度(%)的形式報告,包括均值和標準差兩部分。可以看出,所提出的 IIC 方法在所有基準數(shù)據(jù)集上都優(yōu)于當前的新類發(fā)現(xiàn)方法。
3計算資源稀缺場景下的數(shù)據(jù)集蒸餾
機器學(xué)習方法的成功很大程度依賴于大量訓(xùn)練數(shù)據(jù),特別是在當今大模型時代背景下,預(yù)訓(xùn)練階段使用的海量數(shù)據(jù)集包含從互聯(lián)網(wǎng)上收集的數(shù)十 TB的數(shù)據(jù),使用大規(guī)模的數(shù)據(jù)集進行訓(xùn)練意味著需要高昂的計算資源和巨大的時間代價。因此,我們將數(shù)據(jù)集蒸餾作為一個重要研究方向,通過將大規(guī)模數(shù)據(jù)壓縮為一個足夠精煉的極小規(guī)模數(shù)據(jù)集,從而減少模型訓(xùn)練所需的計算資源,大大減少訓(xùn)練時間,以適應(yīng)計算資源稀缺的場景。
表 2 在四個數(shù)據(jù)集劃分上與先進方法進行比較
基于分布匹配方法作為數(shù)據(jù)集蒸餾的代表性方法之一,通過匹配嵌入空間中的特征分布來實現(xiàn)數(shù)據(jù)集壓縮。但現(xiàn)有的基于分布匹配方法面臨兩個主要不足,一是合成數(shù)據(jù)集中同一類內(nèi)的特征分布分散,降低了類別區(qū)分度;二是現(xiàn)有方法僅關(guān)注平均特征一致性,缺乏精確性和全面性。我們提出基于樣本間關(guān)系和特征間關(guān)系的數(shù)據(jù)集蒸餾方法,通過類中心化約束和局部協(xié)方差匹配約束來解決上述不足。針對之前方法存在的合成數(shù)據(jù)集類別區(qū)分度不足的問題,我們提出了類中化約束,旨在將從合成數(shù)據(jù)集中提取的樣本特征更靠近類中心,防止特征分散,該約束的損失計算為
圖 4 局部協(xié)方差矩陣匹配約束
表 3 CIFAR100 數(shù)據(jù)集上數(shù)據(jù)集蒸餾任務(wù)平均準確率
表 4 TinyImagenet 數(shù)據(jù)集上數(shù)據(jù)集蒸餾任務(wù)平均準確率
4 結(jié)束語
本文主要介紹了我們在開放場景下,針對樣本稀缺、標記稀缺和計算資源稀缺等問題開展關(guān)于小樣本學(xué)習、自監(jiān)督對比學(xué)習、新類發(fā)現(xiàn)和數(shù)據(jù)集蒸餾技術(shù)的研究,并產(chǎn)生的一系列研究成果。然而,除了上述問題,開放場景中還存在噪音干擾、數(shù)據(jù)分布偏移、對抗攻擊,以及面對序列任務(wù)學(xué)習時災(zāi)難性遺忘等問題。未來,擬針對開放環(huán)境下“對抗性攻擊 - 魯棒機器學(xué)習、災(zāi)難性遺忘 - 持續(xù)學(xué)習”的問題,為了提高機器學(xué)習模型對噪音和對抗性攻擊的魯棒性,以及機器學(xué)習模型的持續(xù)學(xué)習和持續(xù)泛化能力,研究防御型機器學(xué)習和基于預(yù)訓(xùn)練大模型的持續(xù)學(xué)習技術(shù)。
(參考文獻略)
李文斌
南京大學(xué)副研究員。主要研究方向為新型機器學(xué)習、計算機視覺和軟硬件協(xié)同優(yōu)化。在IEEE TPAMI、NeurIPS、CVPR、ICCV 等 CCF-A 類國際會議和期刊發(fā)表論文 20 余篇。入選中國科協(xié)青年人才托舉工程。
選自《中國人工智能學(xué)會通訊》
2024年第14卷第5期
青托專欄
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.