99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

ICLR 2025 Spotlight |「免費」多模態信息助力3D小樣本分割

0
分享至

當人形機器人能夠辨識身邊的一切,VR/AR 設備呈現出定制化的虛擬世界,自動駕駛汽車實時捕捉路面狀況,這一切都依賴于對 3D 場景的精確理解。然而,這種精準的 3D 理解往往需要大量詳細標注的 3D 數據,極大推高了時間成本和資源消耗,而每當出現新場景或特定目標時,又不得不重復這一繁重過程。

Few-shot 學習是一種有效的解決思路——通過極少量標注樣本,讓模型迅速掌握新類別,從而大幅改善了這一局限性。但當前研究都局限于單模態點云數據,忽略了多模態信息的潛在價值。對此,University of Copenhagen、ETH Zurich 等團隊填補了這一空白,提出了一個全新的多模態 Few-shot 3D 分割設定和創新方法:在無需額外標注成本的前提下,融合了文本,2D,3D 信息,助力模型更好地適應到新類別


論文: Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation 論文鏈接: https://arxiv.org/abs/2410.22489 代碼鏈接: https://github.com/ZhaochongAn/Multimodality-3D-Few-Shot


3D Few-shot 分割結果示例 一、引言

3D 場景理解在具身智能、VR/AR 等領域至關重要,幫助設備準確感知和解讀三維世界。然而,傳統全監督模型雖在特定類別上表現出色,但其能力局限于預定義類別。每當需要識別新類別時,必須重新收集并標注大量 3D 數據以及重新訓練模型,這一過程既耗時又昂貴,極大地制約了模型的應用廣度。

3D Few-shot 學習旨在利用極少量的示例樣本以適應模型來有效的識別任意的全新類別,大大降低了新類適應的開銷,使得傳統的 3D 場景理解模型不再局限于訓練集中有限的類別標簽,對廣泛的應用場景有重要的價值。

具體而言,對于 Few-shot 3D 點云語義分割(FS-PCS)任務,模型的輸入包括少量支持樣本(包含點云及對應新類標簽)和查詢點云。模型需要通過利用支持樣本獲得關于新類別的知識并應用于分割查詢點云,預測出查詢點云中關于新類別的標簽。在模型訓練和測試時使用的目標類別無重合,以保證測試時使用的類均為新類,未被模型在訓練時見過。

目前,該領域涌現出的工作 [1,2] 都只利用點云單模態的輸入,忽略了利用多模態信息的潛在的益處。對此,這篇文章提出一個全新的多模態 Few-shot 3D 分割設定,利用了文本和 2D 模態且沒有引入額外的標注開銷。在這一設定下,他們推出了創新模型——MultiModal Few-Shot SegNet (MM-FSS)。該模型通過充分整合多模態信息,有效提升小樣本上新類別的學習與泛化能力,證明了利用普遍被忽略的多模態信息對于實現更好的小樣本新類泛化的重要性,為未來研究開辟了全新方向。

二、Multimodal FS-PCS Setup


圖 1. 多模態 FS-PCS 設定

為便于討論,以下都將 Few-shot 3D 點云語義分割簡稱為 FS-PCS。

傳統的 FS-PCS 任務:模型的輸入包含少量的支持點云以及對應的新類別的標注(support point cloud & support mask)。此外,輸入還包括查詢點云(query point cloud)。模型需借助 support 樣本中關于新類別的知識,在 query 點云中完成新類別分割。

多模態 FS-PCS 任務:作者引入的多模態 FS-PCS 包括了除 3D 點云之外的兩個額外模態:文本和 2D。文本模態相應于支持樣本中的目標類別 / 新類的名稱。2D 模態相應于 2D 圖片,往往伴隨 3D 場景采集同步獲得。值得注意的是,2D 模態僅用于模型預訓練,不要求在 meta-learning 和測試時作為輸入,保證了其 Few-shot 輸入形式與傳統 FS-PCS 對齊,僅需要相同的數據且無需額外標注

三、新的 Multimodal FS-PCS 模型 MM-FSS 3.1 模型概覽
圖 2. MM-FSS 架構 3.2 關鍵模塊解析

MM-FSS 在 Backbone 后引入兩個特征提取分支:

  • Intermodal Feature (IF) Head(跨模態特征頭):學習與 2D 視覺特征對齊的 3D 點云特征。

  • Unimodal Feature (UF) Head(單模態特征頭):提取 3D 點云本身的特征。

3.2.1 預訓練階段

MM-FSS 先進行跨模態對齊預訓練,通過利用 3D 點云和 2D 圖片數據對,使用 2D 視覺 - 語言模型(VLM)輸出的 2D 特征監督 IF head 輸出的 3D 特征,使得 IF Head 學習到與2D 視覺 - 語言模型對齊的 3D 特征。這一階段完成后:

  • Backbone 和 IF Head 保持凍結,確保模型在 Few-shot 學習時能利用其預訓練學到的 Intermodal 特征。這樣,在 Few-shot 任務中無需額外的 2D 輸入,僅依賴 Intermodal 特征即可獲益于多模態信息。

  • 此外,該特征也隱式對齊了 VLM 的文本特征,為后續階段利用重要的文本引導奠定基礎。

3.2.2 Meta-learning 階段

在 Few-shot 訓練(稱為 meta-learning)時,給定輸入的 support 和 query 點云,MM-FSS 分別將 IF Head 和 UF Head 輸出的兩套特征計算出對應的兩套 correlations(correlations 表示每個 query 點和目標類別 prototypes 之間的特征相似度)。

  • 兩套 correlations 會通過 Multimodal Correlation Fusion (MCF) 進行融合,生成初始多模態 correlations,包含了 2D 和 3D 的視覺信息。這個過程可以表示為:


其中 和 分別表示用 IF Head 和 UF Head 特征算得的 correlations。 為 MCF 輸出的初始多模態 correlations。

  • 當前獲得的多模態 correlations 融合了不同的視覺信息源,但文本模態中的語義信息尚未被利用,因此設計了 Multimodal Semantic Fusion (MSF) 模塊,進一步利用文本模態特征作為語義引導,提升多模態 correlations:


其中 為文本模態的語義引導, 為文本和視覺模態間的權重(會動態變化以考慮不同模態間變化的相對重要性), 為多模態 correlations。

3.2.3 測試階段

為緩解 Few-shot 模型對于訓練類別的 training bias(易被測試場景中存在的訓練類別干擾,影響新類分割),MM-FSS 在測試時引入 Test-time Adaptive Cross-modal Calibration (TACC) :利用跨模態的語義引導(由 IF Head 生成)適應性地修正預測結果,實現更好的泛化。

跨模態的語義引導未經 meta-learning 訓練,有更少的 training bias。為了有效的執行測試時修正,作者提出基于支持樣本及其標簽估算可靠性指標,用于自動調整修正程度(當該語義引導可靠性更高時,分配更大的修正權重,否則分配更小的權重):


為模型的預測, 為跨模態語義引導, 為適應性指標。通過借助 support point cloud 以及可用的 support mask 可以如下計算 作為修正可靠程度的估計:


四、實驗結果


表1 實驗結果


表2 實驗結果


圖 3. MM-FSS 的可視化對比結果


圖 4. MM-FSS 的可視化消融實驗結果

實驗在兩個標準的 FS-PCS 數據集上進行,證明了 MM-FSS 在各類 few-shot 任務中都實現了最佳性能。可視化也清楚表明了模型能夠實現更優的新類分割,展示了更強的新類泛化能力。更多詳細實驗和分析內容請參見論文。

五、總結

這項工作首次探索了融合多模態以提升 FS-PCS 任務的可能性。文中首先提出了全新的多模態 FS-PCS 設定,無額外開銷地融合文本和 2D 模態。在該設定下,作者提出首個多模態 FS-PCS 模型 MM-FSS,顯式的利用文本模態,隱式的利用 2D 模態,最大化其靈活性和各場景下的應用性。

MM-FSS 包含了 MCF 和 MSF 來有效的從視覺線索和語義信息雙重角度高效聚合多模態知識,增強對新類概念的全面理解。此外,為了協調 few-shot 模型的 training bias,作者設計了 TACC 技術,在測試時動態的修正預測。

綜合來看,該工作展示了過往被普遍忽略的「免費」多模態信息對于小樣本適應的重要性,為未來的研究提供了寶貴的新視野且開放了更多有趣的潛在方向。可參考的方向包括性能的提升 [2,3],訓練和推理效率的優化 [4],更深入的模態信息利用等。

引用

[1] Zhao, Na, et al. "Few-shot 3d point cloud semantic segmentation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.

[2] An, Zhaochong, et al. "Rethinking few-shot 3d point cloud semantic segmentation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2024.

[3] Liu, Yuanwei, et al. "Intermediate prototype mining transformer for few-shot semantic segmentation." Advances in Neural Information Processing Systems 35 (2022): 38020-38031.

[4] Wu, Xiaoyang, et al. "Point transformer v3: Simpler faster stronger." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

作者:安照崇 來源:公眾號【機器之心 】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。

將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
扁擔女孩高考成績出來了,不是網上那些分數,還是讓她自己公布吧

扁擔女孩高考成績出來了,不是網上那些分數,還是讓她自己公布吧

八斗小先生
2025-06-25 18:18:21
莆田男子花90萬娶妻后續:女主澄清,指控男方房事,逃婚緣由公布

莆田男子花90萬娶妻后續:女主澄清,指控男方房事,逃婚緣由公布

娜烏和西卡
2025-06-25 12:51:52
9.3閱兵,大陸邀請國民黨抗戰老兵觀禮,臺軍頭子顧立雄坐不住了

9.3閱兵,大陸邀請國民黨抗戰老兵觀禮,臺軍頭子顧立雄坐不住了

DS北風
2025-06-25 18:04:26
iPhone 17 Pro新機首次亮相,這設計變順眼了!

iPhone 17 Pro新機首次亮相,這設計變順眼了!

科技堡壘
2025-06-25 16:21:24
592分"扁擔女孩"分數公布?二流高中飛不出金鳳凰?起跑線就輸了

592分"扁擔女孩"分數公布?二流高中飛不出金鳳凰?起跑線就輸了

深析古今
2025-06-25 14:38:26
河南人注意!多地強降水集中在今夜

河南人注意!多地強降水集中在今夜

極目新聞
2025-06-25 19:13:07
無錫太強了!網傳江蘇高考理科狀元又在無錫,數據遙遙領先全省…

無錫太強了!網傳江蘇高考理科狀元又在無錫,數據遙遙領先全省…

火山詩話
2025-06-25 13:41:36
又一個經濟奇跡——孟加拉國

又一個經濟奇跡——孟加拉國

古老板的老巢
2025-06-24 23:41:45
曝小米前總監馮德兵出軌!200份“包養合同”,親密照曝光太炸裂

曝小米前總監馮德兵出軌!200份“包養合同”,親密照曝光太炸裂

180視角
2025-06-25 08:59:42
高考611分女生體檢不合格恐無法入學,守護她的求學夢也是守護教育初心

高考611分女生體檢不合格恐無法入學,守護她的求學夢也是守護教育初心

極目新聞
2025-06-25 11:56:48
42歲快遞員陪女兒高考,順手考了680分,北大:24年前就聯系過他

42歲快遞員陪女兒高考,順手考了680分,北大:24年前就聯系過他

五元講堂
2025-06-24 10:14:04
人民日報痛批懶政!嚴查違規吃喝,不該連“下班約飯”都成罪?

人民日報痛批懶政!嚴查違規吃喝,不該連“下班約飯”都成罪?

宏哥談商道
2025-06-24 19:00:02
顧客自取吸管,茶顏悅色店員直接扔掉整桶吸管。。

顧客自取吸管,茶顏悅色店員直接扔掉整桶吸管。。

4A廣告網
2025-06-24 09:59:01
從南京到烏魯木齊:日本留學生30天搭車游中國,遇17位司機僅1人拒絕

從南京到烏魯木齊:日本留學生30天搭車游中國,遇17位司機僅1人拒絕

互聯網大觀
2025-06-25 11:09:02
如何操縱價值21億美元的B-2轟炸機?美退役中將揭秘:吃飯無鹽無味,憑記憶加油

如何操縱價值21億美元的B-2轟炸機?美退役中將揭秘:吃飯無鹽無味,憑記憶加油

紅星新聞
2025-06-25 13:06:12
霍啟仁曼谷大婚,郭晶晶攜20萬愛馬仕出席,并直言終于有妯娌了

霍啟仁曼谷大婚,郭晶晶攜20萬愛馬仕出席,并直言終于有妯娌了

史書無明
2025-06-25 08:26:46
伊朗稱該國核設施在美國空襲中“嚴重受損”

伊朗稱該國核設施在美國空襲中“嚴重受損”

環球網資訊
2025-06-25 20:15:26
打虎!海南省委常委、秘書長倪強任上落馬!

打虎!海南省委常委、秘書長倪強任上落馬!

上觀新聞
2025-06-25 16:18:25
小米前總監被曝200份包養協議,舔、口、喝都有,陪72小時給100萬

小米前總監被曝200份包養協議,舔、口、喝都有,陪72小時給100萬

社會醬
2025-06-25 17:13:35
突傳噩耗!香港知名導演墜樓身亡,身首異處,和妻子恩愛半世紀

突傳噩耗!香港知名導演墜樓身亡,身首異處,和妻子恩愛半世紀

晉哥說電影
2025-06-25 13:49:11
2025-06-25 21:15:00
將門創投 incentive-icons
將門創投
加速及投資技術驅動型初創企業
2156文章數 591關注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內飾

態度原創

旅游
手機
時尚
房產
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

首銷價 299 元,vivo X Fold5 折疊屏手機行業首發單內屏寶

挑對耳環=開掛!這15款巨in巨高級,太顯臉小了!

房產要聞

三亞頂豪!內部資料曝光!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 青海省| 镇宁| 纳雍县| 准格尔旗| 岚皋县| 阿合奇县| 通州市| 石狮市| 唐海县| 延吉市| 资阳市| 噶尔县| 轮台县| 景宁| 赤峰市| 伊吾县| 北辰区| 报价| 开远市| 房产| 太白县| 舞阳县| 沙洋县| 甘泉县| 团风县| 梅州市| 南澳县| 闽侯县| 河间市| 忻城县| 张北县| 西充县| 噶尔县| 通河县| 偏关县| 台南县| 甘德县| 威宁| 新建县| 兴海县| 赣州市|