近日
國際人工智能領(lǐng)域頂級會議
International Joint Conference on Artificial Intelligence (IJCAI) 2025
公布了論文接收結(jié)果
來自西安電子科技大學(xué)
IPIU智能感知與圖像理解實驗室的
5篇論文被IJCAI 2025錄用
和小西小電一起來看~
Predicting Spectral Information for
Self-Supervised Signal Classification
論文作者
徐熠,王爽(通訊作者),邢漢桐,王晨旭,權(quán)豆,楊瑞,趙棟,梅路洋
論文概述
作者提出了一種針對信號分類任務(wù)的自監(jiān)督學(xué)習(xí)方法——SGSSC。該方法利用具有調(diào)制語義的頻域信息作為模型的先驗知識,設(shè)計了一種尚未被探索過的全新預(yù)訓(xùn)練任務(wù)。該任務(wù)通過預(yù)測掩碼時域信號的頻譜信息,使模型能夠通過跨域模式轉(zhuǎn)換學(xué)習(xí)隱式信號特征。此外,SGSSC考慮到其預(yù)訓(xùn)練任務(wù)與下游分類任務(wù)具有強(qiáng)相關(guān)性,而在下游任務(wù)上使用傳統(tǒng)的微調(diào)策略會導(dǎo)致與預(yù)訓(xùn)練任務(wù)相關(guān)的特征出現(xiàn)丟失。因此,作者還提出了一種基于注意力機(jī)制的微調(diào)策略,能夠自適應(yīng)地整合不同層次的預(yù)訓(xùn)練特征。大量實驗結(jié)果表明,SGSSC在時序數(shù)據(jù)領(lǐng)域和信號領(lǐng)域都超越了當(dāng)前最優(yōu)越的自監(jiān)督方法。
RegionMatch: Pixel-Region Collaboration for Semi-Supervised Semantic Segmentation in Remote Sensing Images
論文作者
朱曉倩,張向榮(通訊作者),張?zhí)鞊P(yáng),方超偉,唐旭,焦李成
論文概述
半監(jiān)督語義分割在減輕勞動密集型數(shù)據(jù)標(biāo)注負(fù)擔(dān)方面展現(xiàn)出顯著潛力。然而,現(xiàn)有方法主要依賴于像素級信息,忽略了遙感圖像固有的強(qiáng)區(qū)域一致性,這限制了它們在處理遙感圖像中復(fù)雜多變的背景的有效性。為了解決這個問題,提出了一種新穎的方法RegionMatch,它從全新的對象級角度來利用無標(biāo)記數(shù)據(jù),更適合語義分割的本質(zhì)。具體來說,設(shè)計了像素-區(qū)域協(xié)同偽標(biāo)記策略,該策略將對象級上下文信息顯式地注入半監(jiān)督語義分割的管道中,并通過促進(jìn)像素和區(qū)域視角之間的知識合作,為模型訓(xùn)練提供高質(zhì)量的偽標(biāo)簽。此外,為了進(jìn)一步激發(fā)無標(biāo)記數(shù)據(jù)的利用潛力,提出了區(qū)域結(jié)構(gòu)感知相關(guān)性一致性策略。它通過建立跨圖像的區(qū)域間相關(guān)性和區(qū)域內(nèi)的像素相關(guān)性來建模對象級關(guān)系,為無標(biāo)記數(shù)據(jù)提供更有效的監(jiān)督信號。實驗結(jié)果表明,RegionMatch 在多個權(quán)威遙感數(shù)據(jù)集上的表現(xiàn)優(yōu)于最先進(jìn)的方法,凸顯了其在遙感圖像上的優(yōu)勢。
PatternCIR benchmark and TisCIR: Advancing Zero-Shot Composed Image Retrieval in Remote Sensing
論文作者
梁哲淳,黃韜(通訊作者),毋芳芳,薛侍文,汪振宇,董偉生,李欣,石光明
論文概述
遙感圖像組合檢索(RSCIR)是一項新的視覺-語言任務(wù),它接受一張圖像和一段文本的組合查詢,旨在從復(fù)雜的遙感影像中尋找滿足兩個條件的目標(biāo)遙感圖像。然而,現(xiàn)有的基于屬性的基準(zhǔn)測試Patterncom在遙感圖像組合檢索任務(wù)中存在顯著缺陷,包括缺乏查詢文本句子和配對三元組,這使得它無法評估最新方法。為了解決這一問題,提出了零樣本查詢文本生成器(ZS-QTG),該生成器可以根據(jù)屬性生成完整的查詢文本句子,利用ZS-QTG,開發(fā)了PatternCIR數(shù)據(jù)集。PatternCIR補(bǔ)充了Patterncom的不足,并能夠評估最新的遙感圖像組合檢索方法。此外,探索了零樣本組合圖像檢索方法,這些方法不依賴于大量預(yù)收集的三元組進(jìn)行訓(xùn)練。現(xiàn)有的方法僅在檢索過程中使用文本,在遙感圖像組合檢索上表現(xiàn)不佳。為了改進(jìn)這一點,提出了組合圖像檢索的文本-圖像順序訓(xùn)練(TisCIR)。TisCIR進(jìn)行了多個自掩模投影和細(xì)粒度圖像注意力模塊的順序訓(xùn)練,這賦予了它過濾圖像與文本之間沖突信息的能力,通過和諧地利用兩種模態(tài)來增強(qiáng)檢索效果。TisCIR在PatternCIR上比現(xiàn)有方法提高了22.95%到62.03%,在RSCIR上達(dá)到了最先進(jìn)的性能。
Language-Guided Hybrid Representation Learning for Visual Grounding on Remote Sensing Images
論文作者
劉彪,劉旭(通訊作者),李玲玲,焦李成,劉芳,孫欣雨,黃佑霖
論文概述
視覺定位是指基于語言表達(dá)檢測圖像中的特定目標(biāo),在視覺圖像的高級解譯中具有深遠(yuǎn)意義。在遙感圖像解譯中,視覺定位受到場景復(fù)雜、目標(biāo)尺寸多樣等特點的限制。基于此,本文提出一種新的遙感視覺定位框架,即語言引導(dǎo)的混合表征學(xué)習(xí)Transformer。具體地,設(shè)計了一種多模態(tài)雙編碼器Transformer結(jié)構(gòu),稱為自適應(yīng)多模態(tài)特征融合模塊。該結(jié)構(gòu)創(chuàng)新地將文本和視覺特征融合為混合查詢,使早期解碼查詢能夠在豐富先驗知識的指引下準(zhǔn)確感知目標(biāo)位置。然后,通過混合查詢聚合來自雙編碼器的不同模態(tài)信息,獲得最終的對象嵌入用于坐標(biāo)回歸。此外,設(shè)計了一種多尺度跨模態(tài)特征增強(qiáng)模塊來增強(qiáng)所提取的文本和視覺特征的自表征能力,并在語義空間上實現(xiàn)對齊。對于混合查詢的構(gòu)建,提出了一種視覺特征過濾方法,通過語言指導(dǎo)來選擇合適的視覺特征作為視覺部分,并選取句子級文本特征作為文本部分。最后,設(shè)計的模型與現(xiàn)有模型在DIOR-RSVG和OPT-RSVG數(shù)據(jù)集上相比,展現(xiàn)出了最優(yōu)越的性能。
Screening, Rectifying, and Re-Screening: A Unified Framework for Tuning Vision-Language Models with Noisy Labels
論文作者
方超偉,馬航飛,李志豪,程德(通訊作者),張玥,李冠彬
論文概述
預(yù)先訓(xùn)練的視覺語言模型已經(jīng)顯示出下游任務(wù)的非凡潛力。然而,由于自我確認(rèn)偏差和傳統(tǒng)小損失標(biāo)準(zhǔn)的限制等挑戰(zhàn),它們在噪聲標(biāo)簽下的微調(diào)仍然是一個公開的問題。在本文中,提出了一個統(tǒng)一的框架來解決這些問題,包括三個關(guān)鍵步驟:篩選,校正和重新篩選。首先,提出了一種新穎的雙層語義匹配機(jī)制,其通過利用宏觀和微觀兩個層級的文本提示,將樣本分為干凈、模糊和有噪聲的樣本。其次,設(shè)計特定的偽標(biāo)簽策略來校正噪聲和模糊樣本的標(biāo)簽,使它們能夠有效地融入到訓(xùn)練過程中。最后,再篩選步驟,利用交叉驗證和輔助視覺語言模型,減輕自我確認(rèn)偏差,提高框架的魯棒性。在十個數(shù)據(jù)集上的大量實驗表明,所提出的方法明顯優(yōu)于現(xiàn)有的帶有噪聲標(biāo)簽的視覺語言預(yù)訓(xùn)練模型調(diào)優(yōu)方法。
智能感知與圖像理解實驗室簡介
西安電子科技大學(xué)智能感知與圖像理解教育部重點實驗室成立于2007年。實驗室秉承崇尚學(xué)術(shù)、服務(wù)國家的宗旨,面向國家重大戰(zhàn)略發(fā)展和國際前沿發(fā)展需求,致力于智能感知與計算、圖像理解與目標(biāo)識別、深度學(xué)習(xí)與類腦計算等方面的研究工作,三次榮獲國家自然科學(xué)獎二等獎,研制成功多項重大產(chǎn)品及國際標(biāo)準(zhǔn),如秦嶺?西電遙感腦 、基于面陣CCD的光譜視頻成像系統(tǒng)、人臉畫像識別系統(tǒng)、遙感影像大數(shù)據(jù)類腦解譯系統(tǒng)、語義通信參考架構(gòu)國際標(biāo)準(zhǔn)等,建成人工智能教育創(chuàng)新實驗室,相關(guān)工作為北斗/高分綜合運(yùn)營服務(wù)、國家裝備建設(shè)等多個領(lǐng)域賦能。為推動人工智能技術(shù)更快落地,搶占人工智能應(yīng)用先機(jī),為我國人工智能技術(shù)的發(fā)展與行業(yè)應(yīng)用提供了強(qiáng)有力的支撐。
IJCAI是人工智能領(lǐng)域
最具權(quán)威性和影響力的學(xué)術(shù)會議之一
同時也是中國計算機(jī)學(xué)會(CCF)
推薦的A類國際學(xué)術(shù)會議
其論文錄取率常年低于20%
為西電人點贊!
來源 / IPIU智能感知與圖像理解實驗室
編輯 / 王冠玉
責(zé)編 / 王 格
出品 / 黨委宣傳部〔融媒體中心〕
小提琴?會!數(shù)學(xué)?強(qiáng)!跆拳道?踢!——這位學(xué)姐的技能滿了!
有被燃到!這是西電青年與央視CCTV的十年之約!
今日立夏,于晚照驪山中,見霞色漫天
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.