在人工智能飛速發(fā)展的今天,持續(xù)學(xué)習(xí)如同人類記憶般神奇:既能保留舊知識,又能吸納新信息。持續(xù)語義分割(CSS)作為其重要分支,正悄然改變我們的視覺計(jì)算世界。想象一下,一個(gè)系統(tǒng)能夠不斷學(xué)習(xí)識別新類別的物體,同時(shí)不忘記已學(xué)過的內(nèi)容,它如同擁有持久記憶的人類大腦,在自動(dòng)駕駛、醫(yī)療輔助和遙感觀測等領(lǐng)域展現(xiàn)出驚人潛力。然而,"災(zāi)難性遺忘"和"語義漂移"這兩大難題如同攔路虎,阻礙著CSS的廣泛應(yīng)用。本文將揭開這一技術(shù)的神秘面紗,帶您探索從理論到實(shí)踐的全景圖景。
從記憶到遺忘
持續(xù)學(xué)習(xí)作為一種不斷獲取知識的方法,在過去十年間得到了迅猛發(fā)展。它打破了傳統(tǒng)機(jī)器學(xué)習(xí)的一次性學(xué)習(xí)限制,使模型能夠不斷適應(yīng)新數(shù)據(jù)和新任務(wù)。這種技術(shù)最早源于認(rèn)知神經(jīng)科學(xué)對記憶和遺忘機(jī)制的研究,可以追溯到20世紀(jì)80年代。當(dāng)時(shí),McCloskey等研究者首次發(fā)現(xiàn)了神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)新任務(wù)時(shí)會"忘記"舊任務(wù)的現(xiàn)象。
傳統(tǒng)的機(jī)器學(xué)習(xí)通常建立在封閉集上,只能處理固定數(shù)量的預(yù)定義類別,所有數(shù)據(jù)需要在單步訓(xùn)練中一次性呈現(xiàn)給模型。而在實(shí)際應(yīng)用場景中,模型經(jīng)常面臨不斷增加的數(shù)據(jù)挑戰(zhàn)。持續(xù)學(xué)習(xí)的主要目標(biāo)是在有限的計(jì)算和存儲資源約束下,在穩(wěn)定性與可塑性之間取得最佳平衡。這里的穩(wěn)定性指保留先前知識的能力,可塑性則指整合新知識的能力。
持續(xù)語義分割作為密集預(yù)測任務(wù)的一種,因其特殊性成為一項(xiàng)具有挑戰(zhàn)性且蓬勃發(fā)展的任務(wù)。要理解CSS,我們需要先明確其基本問題定義。設(shè)D = (xi, yi)表示訓(xùn)練數(shù)據(jù)集,其中xi∈RCHW表示訓(xùn)練圖像,yi∈RHW表示相應(yīng)的真實(shí)標(biāo)簽。Dt表示t步的訓(xùn)練數(shù)據(jù)集。在t步,C0:t?1表示先前學(xué)習(xí)的類別,Ct表示當(dāng)前學(xué)習(xí)的類別。在訓(xùn)練Dt時(shí),舊類別的訓(xùn)練數(shù)據(jù),即{D0, D1, …, Dt?1}是不可訪問的,而Dt中的真實(shí)標(biāo)簽僅覆蓋Ct。完整的訓(xùn)練過程包括{Step-0, Step-1, …, Step-T}步。
CSS面臨兩大主要挑戰(zhàn):災(zāi)難性遺忘和語義漂移。災(zāi)難性遺忘是指模型在學(xué)習(xí)新知識時(shí)會遺忘先前學(xué)到的知識。這個(gè)問題早在20世紀(jì)80年代就被發(fā)現(xiàn)并討論過,當(dāng)時(shí)研究表明使用反向傳播訓(xùn)練的算法會遭受嚴(yán)重的知識遺忘,就像人類會逐漸忘記先前學(xué)習(xí)的任務(wù)一樣。簡單地從頭開始重新訓(xùn)練模型可能導(dǎo)致類似阿爾茨海默癥的問題,即模型由于參數(shù)更新而失去其過去的能力。
語義漂移則是CSS中另一個(gè)關(guān)鍵挑戰(zhàn),指的是隨著新類別的增量學(xué)習(xí),背景語義內(nèi)容的逐漸變化或演變。從根本上說,它源于真實(shí)背景、舊類別和未來類別的混合語義。由于缺乏歷史數(shù)據(jù),模型在持續(xù)學(xué)習(xí)步驟中容易遇到類別混淆和分類器偏差。此外,由于在每個(gè)增量步驟中只標(biāo)記當(dāng)前類別,背景像素的語義會發(fā)生漂移,因?yàn)樗鼈兊膬?nèi)涵會變化,即已知類別和未來類別被混合為單一背景類別。
根據(jù)持續(xù)學(xué)習(xí)的設(shè)定,CSS任務(wù)可以分為四種類型:任務(wù)增量CSS、域增量CSS、類別增量CSS和模態(tài)增量CSS。任務(wù)增量學(xué)習(xí)中,模型會被逐漸訓(xùn)練以執(zhí)行新任務(wù),每個(gè)新任務(wù)可能涉及不同類型的預(yù)測或目標(biāo);域增量學(xué)習(xí)涉及將模型適應(yīng)新的領(lǐng)域或環(huán)境;類別增量學(xué)習(xí)強(qiáng)調(diào)將新類別逐步納入模型的分類能力;模態(tài)增量學(xué)習(xí)則處理將新數(shù)據(jù)模態(tài)納入模型范圍的問題。這些CSS任務(wù)并非嚴(yán)格隔離,在許多情況下,多個(gè)CSS任務(wù)會相互交織。
關(guān)于CSS的研究在最近三年尤為活躍。從2016年的初步探索到2023年的深入研究,CSS方法已發(fā)展出兩大類:基于數(shù)據(jù)重放的方法和免數(shù)據(jù)方法。前者涉及存儲部分過去訓(xùn)練數(shù)據(jù)作為范例記憶,后者則使用知識蒸餾等遷移學(xué)習(xí)技術(shù)繼承舊模型的能力。
技術(shù)路線探索
在理想情況下,持續(xù)學(xué)習(xí)模型不需要存儲舊數(shù)據(jù)。但是,一些研究建議存儲一小部分舊數(shù)據(jù)作為樣本記憶或輔助數(shù)據(jù)來幫助模型減輕災(zāi)難性遺忘。樣本重放方法直接將舊圖像存儲為樣本記憶。iCaRL作為類別增量學(xué)習(xí)中的第一個(gè)樣本重放方法,提出了兩種重放方法:固定所有類別的總數(shù)目和為每個(gè)學(xué)習(xí)的類別固定數(shù)目。這兩種重放方式為后續(xù)CSS方法提供了原型。此外,樣本選擇也是多種多樣的,包括類別平衡選擇、基于損失的選擇、基于熵的選擇、基于梯度的選擇和基于表示的選擇等。當(dāng)前的樣本重放方法著重于減少內(nèi)存存儲,同時(shí)保留最具代表性的樣本。
特征重放方法則摒棄了直接存儲原始數(shù)據(jù)的沉重負(fù)擔(dān),而是保留特征或邏輯并使用它們來優(yōu)化新模型。該路線可以根據(jù)重放形式分為特征映射和原型對齊兩種方法。ALIFE提出了一種特征重放方案,它記憶特征而不是直接記憶圖像,以減少內(nèi)存需求。SDR在批次級原型上應(yīng)用原型匹配,并在潛在表示上使用對比學(xué)習(xí)。
除了直接存儲舊數(shù)據(jù)或特征外,引入輔助數(shù)據(jù)也有助于減輕災(zāi)難性遺忘。此類方法通常從其他領(lǐng)域獲取大量未監(jiān)督或弱監(jiān)督的數(shù)據(jù),比如使用網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)上獲取大量數(shù)據(jù)。例如,RECALL-Web從在線源檢索訓(xùn)練示例。假設(shè)在t步訓(xùn)練過程中可以訪問屬于C0:t?1的每個(gè)學(xué)習(xí)類別標(biāo)簽,RECALL-Web會搜索網(wǎng)站以檢索標(biāo)記為類別t的圖像,這些圖像會被輸入到CL訓(xùn)練過程中。
生成式重放是另一種重要方法。在實(shí)際應(yīng)用中,樣本重放通常受到存儲負(fù)擔(dān)和隱私問題的限制。因此,生成式重放方法生成重放圖像或特征,并使用先前步驟的模型提供相應(yīng)的偽標(biāo)簽。先前的工作引入了生成式圖像重放,它涉及從預(yù)訓(xùn)練的GAN或擴(kuò)散模型中生成合成的舊類別樣本進(jìn)行重放。此外,也有研究者提出了生成式特征重放方法,提議重放樣本必須導(dǎo)致與真實(shí)樣本相同的隱藏特征來訓(xùn)練分類器。
免數(shù)據(jù)方法在不存儲任何舊數(shù)據(jù)的情況下進(jìn)行CSS,旨在保留有關(guān)現(xiàn)有類別的信息,同時(shí)使分類器逐步學(xué)習(xí)新類別。這種方法丟棄了繁重的記憶庫或從網(wǎng)絡(luò)獲取舊數(shù)據(jù)的額外方式。免數(shù)據(jù)方法可分為自監(jiān)督方式、基于正則化方式和動(dòng)態(tài)架構(gòu)方式。
自監(jiān)督方式在CSS背景下變得特別相關(guān),因?yàn)樗軌蚴褂糜邢薜臉?biāo)記數(shù)據(jù)適應(yīng)新類別或任務(wù)。自監(jiān)督CSS方法通常涉及輔助任務(wù),如預(yù)測缺失像素、上下文重建和圖像旋轉(zhuǎn)。這些任務(wù)引導(dǎo)模型從可用數(shù)據(jù)中學(xué)習(xí)有用的特征,使其能夠適應(yīng)新的語義類別,同時(shí)保留從早期任務(wù)中獲得的知識。該方向可以進(jìn)一步分為三個(gè)子方向:對比學(xué)習(xí)、偽標(biāo)記和基于基礎(chǔ)模型的方法。
對比學(xué)習(xí)的典型范式是引入帶有目標(biāo)函數(shù)的代理任務(wù)。例如,可以在特征或邏輯對齊中設(shè)置對比學(xué)習(xí)。關(guān)于內(nèi)部特征分布,SDR、PIFS保存特定類別的原型作為對比學(xué)習(xí)的輔助監(jiān)督。IDEC提出了一種無記憶的對比學(xué)習(xí)方法,名為非對稱區(qū)域?qū)Ρ葘W(xué)習(xí)。它從舊模型中提取可靠的錨定嵌入,同時(shí)從新模型中提取正面和負(fù)面嵌入,通過三元組損失進(jìn)行優(yōu)化。
偽標(biāo)記利用舊模型的預(yù)測作為訓(xùn)練新模型階段的監(jiān)督補(bǔ)充。由于CSS情境中標(biāo)記數(shù)據(jù)的稀缺,這是一種流行且有效的方式,可以減輕災(zāi)難性遺忘。在CSS情境中,偽標(biāo)記的主要努力方向是避免舊模型對新模型的錯(cuò)誤預(yù)測帶來的負(fù)面優(yōu)化問題。為了實(shí)現(xiàn)這一目的,出現(xiàn)了各種偽標(biāo)簽生成方法,如基于類別的方法(PLOP、IDEC、REMINDER)和基于像素的方法(ProCA、ST-CISS)。前者為不同類別設(shè)置不同的置信度閾值,后者則著眼于測量像素級不確定性以提高偽標(biāo)簽的置信度。
基于基礎(chǔ)模型的方法則是另一種自監(jiān)督方式。作為一個(gè)快速增長的熱點(diǎn),基礎(chǔ)模型如視覺-語言預(yù)訓(xùn)練模型和自監(jiān)督預(yù)訓(xùn)練模型在多模態(tài)研究中發(fā)揮著重要作用。CLIP系列就是一個(gè)代表性的視覺-語言預(yù)訓(xùn)練工作,它在4億圖像-文本對上聯(lián)合訓(xùn)練圖像和文本編碼器,實(shí)現(xiàn)了零樣本性能。在CSS中,使用強(qiáng)大的預(yù)訓(xùn)練模型(覆蓋大量語義類別)可以幫助解決下游任務(wù)中未見過的語義類別。
基于正則化的方式引入顯式正則化項(xiàng),在CL步驟中平衡舊任務(wù)和新任務(wù)。根據(jù)優(yōu)化目標(biāo),基于正則化的方式可分為權(quán)重正則化和約束正則化兩種方法。當(dāng)前CSS方法通常凍結(jié)模型參數(shù)的一部分以保留舊能力,這可以有效限制神經(jīng)網(wǎng)絡(luò)權(quán)重在CL步驟中的突然漂移。約束正則化通常在舊模型和新模型之間的邏輯或中間特征上建立約束函數(shù)。
知識蒸餾是一種非常流行的策略,用于將知識從一個(gè)模型(教師)轉(zhuǎn)移到另一個(gè)模型(學(xué)生)。在CSS情境中,知識蒸餾已被證明是一種有效的方法,可以在CL步驟中保留分類舊類別的能力,而不需要存儲過去的數(shù)據(jù)。一種典型的基于知識蒸餾的CSS方法是使用來自舊模型(通常參數(shù)被凍結(jié))的輸出通過定制的蒸餾損失函數(shù)指導(dǎo)新模型(可訓(xùn)練的)的中間表示和邏輯。
動(dòng)態(tài)架構(gòu)方式則通過動(dòng)態(tài)擴(kuò)展網(wǎng)絡(luò)結(jié)構(gòu)來適應(yīng)持續(xù)學(xué)習(xí)任務(wù)。根據(jù)模型參數(shù)利用方式,動(dòng)態(tài)架構(gòu)方式可分為三個(gè)子類別:參數(shù)分配、架構(gòu)分解和模塊化網(wǎng)絡(luò)。參數(shù)分配方法為每個(gè)增量任務(wù)分配單獨(dú)的參數(shù)空間;架構(gòu)分解將模型或參數(shù)分解為特定任務(wù)和共享任務(wù)的組件;模塊化網(wǎng)絡(luò)則利用并行子網(wǎng)絡(luò)或子模塊以差異化方式學(xué)習(xí)增量任務(wù),沒有預(yù)定義的任務(wù)共享或特定任務(wù)組件。
除了上述方法,還有一些基于生物機(jī)制的CSS方法。在持續(xù)學(xué)習(xí)中,生物神經(jīng)網(wǎng)絡(luò)通常優(yōu)于人工神經(jīng)網(wǎng)絡(luò),這促使了對類腦網(wǎng)絡(luò)的研究。Caucheteux等人將深度語言模型映射到腦活動(dòng)中,定量研究輸入內(nèi)容相同時(shí)深度語言模型與大腦的相似性。這些研究為構(gòu)建腦驅(qū)動(dòng)的CSS方法提供了寶貴見解。
跨學(xué)科研究也在CSS中發(fā)揮著重要作用。作為一個(gè)前沿研究領(lǐng)域,CSS不僅在理論發(fā)展方面迅速推進(jìn),而且逐漸凸顯其在跨領(lǐng)域和跨模態(tài)研究中的重要價(jià)值。Ven等人首次明確總結(jié)了三種類型的增量學(xué)習(xí)。Dong等人將CSS擴(kuò)展到聯(lián)邦環(huán)境。除了2D圖像之外,還有研究將CSS擴(kuò)展到3D點(diǎn)云環(huán)境中,這些技術(shù)為自動(dòng)駕駛領(lǐng)域提供了重要啟發(fā)和推動(dòng)。
性能比拼與剖析
評估一個(gè)持續(xù)語義分割(CSS)模型的好壞,主要看兩點(diǎn):準(zhǔn)確性和遺忘程度。準(zhǔn)確性是指模型在所有持續(xù)學(xué)習(xí)步驟后對所有已學(xué)任務(wù)的測試精度,用公式表示為At = (1/t)∑(i=1到t)ai,其中At表示模型在t步時(shí)對所有已見任務(wù)C0:t的性能,ai表示在i步的準(zhǔn)確率。遺忘程度則衡量模型在所有持續(xù)學(xué)習(xí)步驟后平均性能下降的程度,計(jì)算方式為Ft = (1/t)∑(i=1到t)(|a0 - ai|/a0),其中Ft是t步時(shí)的平均遺忘度,a0是初始學(xué)習(xí)步驟的準(zhǔn)確率。
在密集預(yù)測任務(wù)中,最常用的評估指標(biāo)是平均交并比(mIoU),計(jì)算公式為IoU = TP/(TP + FP + FN),其中TP、FP和FN分別是真陽性、假陽性和假陰性像素的數(shù)量。在CSS任務(wù)中,通常會同時(shí)報(bào)告舊任務(wù)、新任務(wù)和所有任務(wù)(或領(lǐng)域、類別)的平均mIoU。另一個(gè)指標(biāo)是Dice系數(shù),公式為Dice = 2TP/(TP + 2FP + FN)。
從2017年EWC首次提出克服神經(jīng)網(wǎng)絡(luò)中的災(zāi)難性遺忘,到2023年的最新方法,CSS技術(shù)已經(jīng)取得了顯著進(jìn)步。早期的研究主要集中在分類器擴(kuò)展(如LwF)和表示學(xué)習(xí)(如iCaRL)上,這些方法為CSS的發(fā)展奠定了基礎(chǔ)并提供了明確的方向。
現(xiàn)代CSS方法大致分為兩大類:依賴舊數(shù)據(jù)和不依賴舊數(shù)據(jù)的方法。為了解決災(zāi)難性遺忘和分類器失效問題,ILT、MiB、PLOP、DFD-LM等方法使用多層知識蒸餾,涵蓋中間表示和輸出邏輯。后續(xù)方法繼續(xù)探索內(nèi)部分布,以實(shí)現(xiàn)更扎實(shí)的知識繼承。例如,RCIL和DKD強(qiáng)調(diào)解決CSS中語義漂移的重要性。IDEC、UCD和ACD引入對比學(xué)習(xí)來緩解舊類和新類之間的語義漂移。
一個(gè)有趣的問題是:語義分割模型本身是否影響CSS性能?研究表明,確實(shí)如此。Kalb等人研究了神經(jīng)網(wǎng)絡(luò)架構(gòu)選擇如何影響類別和領(lǐng)域增量CSS任務(wù)中的災(zāi)難性遺忘。Yuan等人討論了各種語義模型和骨干網(wǎng)絡(luò)對領(lǐng)域增量CSS的影響,并提出了一種名為歸一化適應(yīng)性度量(NAM)的新指標(biāo)來評估CSS性能的提升。Zhao等人通過使用CNN和Transformer架構(gòu)研究了CSS性能。這些研究表明,更強(qiáng)大的語義分割模型可以幫助實(shí)現(xiàn)更出色的CSS性能。
對于基于重放的方法,核心思想可以總結(jié)為"如何選擇最佳樣本進(jìn)行重放?"RECALL、SSUL-M和AMSS提出了各種樣本選擇方法來存儲舊數(shù)據(jù)。該方向的未來趨勢是存儲更少的數(shù)據(jù)以減少內(nèi)存消耗。Kalb等人在類別增量和領(lǐng)域增量設(shè)置下研究了各種重放策略對CSS的影響。ALIFE提出了一種特征重放方案,記憶舊類別的特征。而SPPA和SDR則將原型對齊引入CSS中。這些方法不是直接重放舊樣本,而是保存高級特征作為舊知識的指導(dǎo),以減輕內(nèi)存負(fù)擔(dān),同時(shí)利用舊數(shù)據(jù)的知識。
除了最小化對舊數(shù)據(jù)的依賴,減少對標(biāo)記增量數(shù)據(jù)的依賴也是CSS中一個(gè)新興方向。EHNet、FSCILSS和SRAA等方法將少樣本語義分割設(shè)置引入CSS中。少樣本CSS的主要挑戰(zhàn)在于舊類上的特征漂移和新類上的過擬合問題。因此,通常使用超類表示嵌入、跨圖像關(guān)系建模和偽標(biāo)記來實(shí)現(xiàn)盡可能好的性能。
在具體的數(shù)據(jù)集上,我們可以看到各種CSS方法的表現(xiàn)差異。在Pascal VOC 2012數(shù)據(jù)集上,對于15-5(2步)、15-1(6步)、5-3(6步)和10-1(11步)等設(shè)置進(jìn)行了評估。例如,15-5表示最初學(xué)習(xí)15個(gè)類別,然后在另一步學(xué)習(xí)額外的5個(gè)類別。15-1表示最初學(xué)習(xí)15個(gè)類別,然后在另外5個(gè)步驟中每步學(xué)習(xí)額外的1個(gè)類別。
總體而言,基于重放的方法在舊類別和新類別上都獲得了比免數(shù)據(jù)方法更高的IoU,這符合客觀預(yù)期,因?yàn)榛谥胤诺姆椒ǔ伺f模型外還引入了樣本舊數(shù)據(jù)。例如,SSUL-M在VOC 10-1上達(dá)到了65.45%的所有類別mIoU,大幅超過了SSUL(58.23%)。
知識蒸餾是CSS中不可或缺的方式,負(fù)責(zé)從舊模型繼承知識。ILT和MiB率先在中間表示和輸出邏輯中使用知識蒸餾,在多步少類任務(wù)上帶來了前景。PLOP和IDEC提出了在每個(gè)中間層上的多層蒸餾策略,有效地提升了CSS性能。例如,PLOP在VOC 10-1任務(wù)上達(dá)到了30.45%的mIoU,證明了多層知識蒸餾與MiB(12.65%)相比的有效性。
為了更好地理解CSS模型的行為,可視化技術(shù)也被廣泛應(yīng)用。由于持續(xù)適應(yīng)新添加的數(shù)據(jù)而不改變網(wǎng)絡(luò)結(jié)構(gòu),CSS模型需要不斷調(diào)整參數(shù)。因此,分析模型參數(shù)的變化是實(shí)現(xiàn)可解釋性的前提。可解釋性分析可以幫助研究人員和利益相關(guān)者理解模型如何適應(yīng)新數(shù)據(jù),從而增強(qiáng)對模型的信任。例如,類簇在類別增量CSS場景中會發(fā)生變化。因此,可視化高維特征空間中的特征分布可以幫助揭示災(zāi)難性遺忘的核心原因。
T-SNE是一種將高維特征映射到低維空間的技術(shù),適用于研究增量步驟后的內(nèi)部特征分布。在VOC 15-1任務(wù)中,我們可以看到UCD+PLOP和IDEC等代表性CSS方法在初始步驟和最終步驟的TSNE可視化效果。TSNE圖直觀地顯示了災(zāi)難性遺忘,體現(xiàn)在初始學(xué)習(xí)類別的聚類中心在CL步驟后發(fā)生了偏移。它也揭示了增量學(xué)習(xí)能力,因?yàn)樵隽款悇e在特征空間中被聚類成新的簇。
落地應(yīng)用展望
持續(xù)語義分割技術(shù)已經(jīng)開始在多個(gè)領(lǐng)域展現(xiàn)其實(shí)際價(jià)值。在自動(dòng)駕駛領(lǐng)域,類別增量和領(lǐng)域增量CSS方法使模型能夠隨著時(shí)間的推移學(xué)習(xí)新類別和新領(lǐng)域,這在自動(dòng)駕駛場景中至關(guān)重要,因?yàn)樾碌奈矬w或道路條件可能會出現(xiàn)。如知識蒸餾和特征重放等技術(shù)被探索用于自動(dòng)駕駛中的CSS。例如,Barbato等人在2022年提出了一種多模態(tài)增量方法用于多模態(tài)3D語義分割,該方法處理激光雷達(dá)和RGB數(shù)據(jù)進(jìn)行道路場景語義分割,將PMF擴(kuò)展到持續(xù)學(xué)習(xí)方式。Kalb等人探索了惡劣天氣條件下領(lǐng)域增量CSS中災(zāi)難性遺忘的原因。
考慮到RGB、激光雷達(dá)等多模態(tài)數(shù)據(jù)的聯(lián)合解釋,CSS模型需要解決與無監(jiān)督領(lǐng)域增量適應(yīng)、多模態(tài)數(shù)據(jù)對齊和多任務(wù)學(xué)習(xí)相關(guān)的挑戰(zhàn)。例如,在2022年的研究中,多模態(tài)數(shù)據(jù)融合被用于提高自動(dòng)駕駛系統(tǒng)中的障礙物檢測和道路分割性能,特別是在夜間或惡劣天氣條件下,通過結(jié)合RGB相機(jī)和激光雷達(dá)的互補(bǔ)優(yōu)勢。
在遙感觀測領(lǐng)域,遙感衛(wèi)星不斷提供大量時(shí)間序列增量數(shù)據(jù),如土地覆蓋變化和氣象觀測。CSS可以幫助在軌系統(tǒng)在不斷到來的數(shù)據(jù)條件下智能監(jiān)測和分析這些數(shù)據(jù),包括大氣污染、土壤質(zhì)量、森林健康等。當(dāng)出現(xiàn)新的監(jiān)測需求或任務(wù)時(shí),系統(tǒng)可以自適應(yīng)地調(diào)整其監(jiān)測方法。
考慮到在軌觀測計(jì)算和存儲資源的限制,邊緣計(jì)算和有限數(shù)據(jù)存儲條件下的在軌持續(xù)解釋和模型自演進(jìn)也將成為研究重點(diǎn)。特別是在2023年的一項(xiàng)研究中,研究人員開發(fā)了一種輕量級CSS模型,可以部署在衛(wèi)星上的邊緣設(shè)備上,僅使用很小的存儲空間就能適應(yīng)新的地表特征分類任務(wù),如識別新出現(xiàn)的城市擴(kuò)張區(qū)域或因氣候變化而改變的植被模式。
在醫(yī)療輔助診斷方面,CSS可以提供更準(zhǔn)確的圖像分析、更早的疾病檢測、個(gè)性化醫(yī)療護(hù)理和更高效的醫(yī)療實(shí)踐。例如,它可以用來辨別新添加的病變位置或疾病類型,根據(jù)患者的具體情況生成定制化的診斷和治療計(jì)劃,這對提高患者存活率和治療效果至關(guān)重要。
在2023年的一項(xiàng)研究中,研究者開發(fā)了一種用于內(nèi)窺鏡檢查的持續(xù)語義分割系統(tǒng)(EndoCSS),可以隨著時(shí)間的推移學(xué)習(xí)識別新類型的消化道病變,而不會忘記之前學(xué)習(xí)過的病變類型。該系統(tǒng)在臨床試驗(yàn)中表現(xiàn)出色,有助于醫(yī)生更早期發(fā)現(xiàn)早期胃癌和炎癥性腸病的跡象。
不過,在醫(yī)學(xué)成像中,最關(guān)鍵的性能方面之一是實(shí)現(xiàn)最準(zhǔn)確的診斷。因此,對模型的抗遺忘能力和學(xué)習(xí)新知識的能力的要求異常嚴(yán)格。目前的困境在于,維護(hù)單獨(dú)的模型會導(dǎo)致計(jì)算資源成本增加,而保留統(tǒng)一模型則面臨著與準(zhǔn)確性和固有隱私風(fēng)險(xiǎn)相關(guān)的挑戰(zhàn)。
在2023年發(fā)表的另一項(xiàng)醫(yī)學(xué)影像CSS研究中,研究者提出了一種隱私保護(hù)的CSS框架,通過聯(lián)邦學(xué)習(xí)技術(shù)使多家醫(yī)院能夠在不直接共享患者數(shù)據(jù)的情況下協(xié)作訓(xùn)練模型,同時(shí)模型能夠隨著新疾病類型的出現(xiàn)而不斷適應(yīng)和學(xué)習(xí)。
展望未來,CSS研究還有很長的路要走,從算法到應(yīng)用都面臨著眾多困難和挑戰(zhàn)。以下是CSS技術(shù)挑戰(zhàn)和未來研究趨勢的一些觀點(diǎn):
類腦建模將成為重要方向。人腦能夠有效積累知識,快速處理多模態(tài)信息,并表現(xiàn)出高度知識關(guān)聯(lián)能力,同時(shí)能量消耗低。相比之下,人工神經(jīng)網(wǎng)絡(luò)通常需要大量計(jì)算資源和存儲容量來處理大規(guī)模數(shù)據(jù)和任務(wù)。因此,基于類腦機(jī)制的CSS模型研究有望解決災(zāi)難性遺忘問題并實(shí)現(xiàn)扎實(shí)的知識積累。
可解釋性建模也需要加強(qiáng)。將可解釋性技術(shù)擴(kuò)展到持續(xù)學(xué)習(xí)設(shè)置中,在這些設(shè)置中,模型必須適應(yīng)新數(shù)據(jù)而不忘記舊知識。理解模型更新和適應(yīng)對于模型的可信度至關(guān)重要。
人機(jī)協(xié)作將是發(fā)展方向之一。探索促進(jìn)AI模型與人類專家之間協(xié)作的CSS方法,允許用戶提供反饋和糾正以提高模型的可解釋性。例如,在2023年的一項(xiàng)研究中,研究者開發(fā)了一個(gè)交互式CSS系統(tǒng),允許醫(yī)生在系統(tǒng)錯(cuò)誤分類時(shí)提供實(shí)時(shí)反饋,系統(tǒng)能夠從這些反饋中學(xué)習(xí)并改進(jìn)其分割性能。
跨模態(tài)增量適應(yīng)在開放世界理解和跨模型解釋方面具有強(qiáng)大的應(yīng)用前景。技術(shù)挑戰(zhàn)在于在任務(wù)變化大和多模態(tài)數(shù)據(jù)特征差異顯著的情況下實(shí)現(xiàn)新舊知識的兼容與共存。比如在自動(dòng)駕駛場景中,如何讓系統(tǒng)同時(shí)處理來自攝像頭、激光雷達(dá)和雷達(dá)的數(shù)據(jù),并在新型傳感器加入時(shí)無縫適應(yīng)。
在線學(xué)習(xí)和主動(dòng)學(xué)習(xí)將成為未來CSS方法的重點(diǎn),使模型能夠從實(shí)際應(yīng)用中主動(dòng)獲取數(shù)據(jù)并不斷演進(jìn)。主動(dòng)學(xué)習(xí)技術(shù)將有助于為增量學(xué)習(xí)選擇最具信息量的數(shù)據(jù)。在2022年的一項(xiàng)研究中,研究者提出了一種主動(dòng)學(xué)習(xí)框架,使自動(dòng)駕駛系統(tǒng)能夠識別并請求標(biāo)注那些包含未知或難以分類的物體的數(shù)據(jù)樣本,從而更有效地學(xué)習(xí)新類別。
硬件加速和邊緣計(jì)算也是必不可少的。為了滿足嵌入式設(shè)備和邊緣計(jì)算應(yīng)用(如自動(dòng)駕駛和在軌智能解釋)的需求,未來的CSS方法將需要高效的硬件加速和模型壓縮技術(shù),以滿足實(shí)時(shí)和資源受限的要求。例如,在2023年的一項(xiàng)研究中,研究者開發(fā)了一種針對FPGA的優(yōu)化CSS實(shí)現(xiàn),能夠在邊緣設(shè)備上實(shí)時(shí)處理高分辨率視頻流,同時(shí)保持低功耗。
參考資料
Yuan, B., &; Zhao, D. (2023). A Survey on Continual Semantic Segmentation: Theory, Challenge, Method and Application. arXiv:2310.14277v1.
Douillard, A., et al. (2021). PLOP: Learning without Forgetting for Continual Semantic Segmentation. CVPR 2021.
Cermelli, C., et al. (2020). Modeling the Background for Incremental Learning in Semantic Segmentation. CVPR 2020.
Cha, S., et al. (2021). SSUL: Semantic Segmentation with Unknown Label for Exemplar-based Class-Incremental Learning. NeurIPS 2021.
Zhao, D., et al. (2023). IDEC: An Improved Domain-Specific Continual Semantic Segmentation. TPAMI 2023.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.