有人說小目標檢測不好做了?可不見得,作為目標檢測領域的硬骨頭,它在2025年依然充滿挑戰與機遇,妥妥的”學術富礦“(戰術后仰)。
雖然傳統CNN和Transformer方案已經卷出天際,但Mamba架構的橫空出世給這個領域注入了新活力——它的線性復雜度優勢和長序列建模能力,簡直就是為小目標的"像素級定位"和"上下文依賴"難題量身定制的!
目前最火的創新方向集中在:1)Mamba的視覺空間建模改進(比如雙向掃描策略),2)多尺度特征融合的輕量化設計,3)與動態卷積的混合架構,4)針對小目標的序列化數據增強。尤其推薦關注Mamba+擴散模型的跨模態方案,既蹭上大模型熱度,又能真正解決小目標檢測中的噪聲敏感問題,發論文簡直雙倍快樂(doge)。現在入場正當時,畢竟SSM(狀態空間模型)在CV領域的屠榜才剛剛開始!
本文整理了近期36篇頂會頂刊上發表的Mamba與小目標檢測的前沿論文,可做參考,大家有需要掃碼領取。
掃碼添加學長,回復“小目標檢測”
免費獲取全部論文
01
Mamba嵌套結構的高效紅外小目標檢測
MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small-Target Detection
方法:論文提出了一種名為MiM-ISTD的嵌套Mamba結構,用于高效紅外小目標檢測(ISTD)。該方法通過外層Mamba塊和內層Mamba塊分別捕獲全局和局部特征,將圖像劃分為“視覺句子”和“視覺單詞”,從而在保持線性復雜度的同時,實現對局部特征的精細建模。
創新點:
設計了Mamba-in-Mamba結構,外層Mamba塊處理全局特征,內層Mamba塊處理局部特征,顯著提升了小目標的檢測精度。
通過共享網絡計算視覺單詞間的關系,以極小的計算開銷實現了局部特征的精細化建模。
實驗表明,MiM-ISTD在NUAA-SIRST和IRSTD-1k數據集上表現優異,推理速度比現有方法快8倍,GPU內存占用減少62.2%。
02
基于Mamba與CNN的多模態遙感目標檢測
RemoteDet-Mamba: A Hybrid Mamba-CNN Network for Multi-modal Object Detection in Remote Sensing Images重試錯誤原因
方法:論文提出了一種名為RemoteDet-Mamba的新型多模態無人機遙感目標檢測框架。該框架結合了Siamese CNN網絡和跨模態融合Mamba(CFM)模塊,通過CNN提取多尺度局部特征,并利用Mamba的選擇性掃描機制(SS2D)在四個方向上進行全局特征融合,實現了對密集分布小目標的高效檢測。
創新點:
設計了CFM模塊,基于Mamba的選擇性掃描機制,在四個方向上對多模態特征進行全局掃描和融合,顯著提升了小目標的區分能力。
結合CNN的局部特征提取能力和Mamba的全局建模優勢,在保持線性計算復雜度的同時,實現了高效的多模態特征融合。
在DroneVehicle數據集上的實驗表明,RemoteDet-Mamba的mAP達到81.8%,優于現有方法,同時保持了較低的參數量和較高的檢測速度(24.01 FPS)。
掃碼添加學長,回復“小目標檢測”
免費獲取全部論文
03
基于Mamba的紅外小目標檢測
IRMamba: Pixel Difference Mamba with Layer Restoration for Infrared Small Target Detection
方法:
創新點:
設計了PDMamba模塊,通過像素差分信息增強局部細節表示,同時利用空間分布函數區分目標和背景干擾。
提出LRM模塊,通過雙向梯度下降和交叉近端映射,實現噪聲抑制和目標層的精細重建。
在多個公開數據集上的實驗表明,IRMamba在客觀指標和主觀評估上均優于現有方法。
04
運動與位移信息學習的紅外小目標檢測
MOCID: Motion Context and Displacement Information Learning for Moving Infrared Small Target Detection
方法:論文提出了一種名為MOCID的新型模型,用于動態紅外小目標檢測(MIRSTD)。該方法通過傅里葉啟發的時空注意力(FISTA)和位移感知Mamba模塊(DAM),分別從片段級別和幀級別捕捉運動上下文和位移信息,顯著提升了動態目標的檢測性能。
創新點:
設計了FISTA模塊,通過傅里葉變換和可學習濾波器捕獲運動上下文,并動態調整空間特征提取。
提出DAM模塊,利用時間插值和差分感知掃描技術,建模幀間位移信息,增強對動態目標的感知能力。
在IRDST和DAUB數據集上的實驗表明,MOCID在檢測精度和效率上均優于現有方法,實現了速度與精度的平衡。
05
頻譜交互Mamba
SMILE: Spatial-Spectral Mamba Interactive Learning for Infrared Small Target Detection
方法:論文提出了一種名為SMILE(Spatial-Spectral Mamba Interactive Learning)的網絡,用于紅外小目標檢測(IRSTD)。該方法通過透視變換重構數據,結合Mamba的多方向掃描機制,利用空間Mamba和頻譜Mamba協同提取小目標的顯著性特征和高頻屬性。此外,設計了雙路徑聚合網絡(DPA)和混合表示學習模塊(HRLM),以高效融合特征并優化局部細節。
創新點:
提出透視變換技術,將異構背景低秩化并突出小目標,使其與Mamba的多方向掃描機制相匹配,從而增強長程依賴捕捉能力。
設計空間-頻譜交互SSM模塊,通過空間Mamba和頻譜Mamba分別提取小目標的顯著性和高頻特征,提升特征維度。
引入DPA網絡,通過選擇性注意力策略減少模型冗余,同時保持檢測性能;HRLM模塊則通過多粒度特征融合優化局部特征。
掃碼添加學長,回復“小目標檢測”
免費獲取全部論文
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.