網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

ICCV 2025滿分論文：一個(gè)模型實(shí)現(xiàn)空間理解與主動(dòng)探索大統(tǒng)一

2025-07-14 10:55:35　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

本論文核心團(tuán)隊(duì)來自北京通用人工智能研究院機(jī)器學(xué)習(xí)實(shí)驗(yàn)室，團(tuán)隊(duì)負(fù)責(zé)人李慶博士長期從事多模態(tài)理解、多模態(tài)智能體、具身智能等方向，主頁：https://liqing.io

近年來，人工智能正逐步從虛擬的互聯(lián)網(wǎng)空間（Cyber Space）邁向真實(shí)的物理世界（Physical Space）[1]。這一轉(zhuǎn)變的核心挑戰(zhàn)之一，是如何賦予智能體對(duì)三維空間的理解能力 [2]，實(shí)現(xiàn)自然語言與真實(shí)物理環(huán)境的對(duì)齊（grounding）。盡管已有的 3D 空間理解模型在視覺感知和語言對(duì)齊方面取得了顯著進(jìn)展，但它們普遍依賴于靜態(tài)的世界的觀察，缺乏對(duì)主動(dòng)探索行為的建模。

針對(duì)這一問題，清華大學(xué)、北京通研院、北理工與北航的研究團(tuán)隊(duì)聯(lián)合提出了一種統(tǒng)一空間理解與主動(dòng)探索的新型模型。該方法使智能體能夠在動(dòng)態(tài)探索過程中逐步構(gòu)建對(duì)環(huán)境的認(rèn)知，從而實(shí)現(xiàn)更高效的空間感知與自主導(dǎo)航，為智能體在物理世界中的任務(wù)執(zhí)行奠定了基礎(chǔ)。這個(gè)工作已被 ICCV 2025 接收，所有審稿人一致給出滿分評(píng)價(jià)。

論文標(biāo)題：Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation
論文鏈接：https://arxiv.org/abs/2507.04047
項(xiàng)目主頁：https://mtu3d.github.io
代碼鏈接：https://github.com/MTU3D/MTU3D

理解與探索：具身導(dǎo)航中的 “雙面鏡”

在具身導(dǎo)航（Embodied Navigation）任務(wù)中 [3]，智能體需要根據(jù)人類的指令 —— 可能是一句話、一張圖片、或者一個(gè)任務(wù)描述 —— 在復(fù)雜的物理空間中找到目標(biāo)位置。它不僅要 “聽懂任務(wù)”，還要 “會(huì)探索”，這正是空間理解和具身智能中的關(guān)鍵挑戰(zhàn)。如下圖所示，導(dǎo)航過程中其實(shí)包含兩個(gè)交織進(jìn)行的關(guān)鍵步驟：

理解（Grounding）：智能體需要先理解指令在空間中具體指的是什么，比如 “去餐桌” 意味著它要找到與 “餐桌” 這個(gè)概念匹配的空間位置。
探索（Exploring）：在還不完全了解環(huán)境時(shí)，智能體必須主動(dòng)移動(dòng)、觀察和嘗試，才能發(fā)現(xiàn)目標(biāo)物品或區(qū)域。

這就像人類在空間中去導(dǎo)航一樣，如果你想找吃的，可能會(huì)優(yōu)先去廚房或餐廳看看 —— 這個(gè) “方向感” 正是基于人對(duì)空間的理解。而真正找到零食，還需要你在廚房中主動(dòng)探索。這說明，理解和探索不是兩個(gè)獨(dú)立的過程，而是互相推動(dòng)、交替進(jìn)行的

研究難點(diǎn)：表征、訓(xùn)練目標(biāo)和數(shù)據(jù)采集

實(shí)時(shí)語義表征：如何構(gòu)建可在線更新的 3D 語義地圖，既包含精確的空間位置，又融合豐富的語義信息，并能持續(xù)處理來自 RGB-D 流的數(shù)據(jù)？
探索-理解協(xié)同訓(xùn)練：如何將探索策略與語義理解統(tǒng)一在一個(gè)訓(xùn)練目標(biāo)中聯(lián)合優(yōu)化，打破傳統(tǒng)模塊化方法中兩者割裂的問題？
高效數(shù)據(jù)采集：如何降低真實(shí)世界導(dǎo)航數(shù)據(jù)采集的成本，利用虛擬與真實(shí)環(huán)境結(jié)合，構(gòu)建自動(dòng)化、可擴(kuò)展的數(shù)據(jù)采集流程？

核心思路：探索和理解協(xié)同訓(xùn)練

如下圖所示，作者將具身導(dǎo)航建模為一個(gè)探索與視覺落地（grounding）協(xié)同進(jìn)行的閉環(huán)過程

在探索階段，智能體通過連續(xù)的 RGB-D 感知不斷積累空間記憶，主動(dòng)尋找潛在的目標(biāo)位置。當(dāng)空間記憶中包含了足夠的視覺語義信息后，模型便進(jìn)入視覺落地階段 —— 根據(jù)語言指令對(duì)空間中的候選區(qū)域進(jìn)行匹配，并導(dǎo)航至最符合語義的目標(biāo)位置。

這種設(shè)計(jì)將強(qiáng)化學(xué)習(xí)方法中的主動(dòng)探索能力3D 視覺語言模型的語義理解能力統(tǒng)一在一個(gè)閉環(huán)系統(tǒng)中。

探索推動(dòng)理解的發(fā)生，理解又反過來引導(dǎo)更高效的探索，從而實(shí)現(xiàn)端到端的協(xié)同訓(xùn)練與任務(wù)執(zhí)行。

模型設(shè)計(jì)和數(shù)據(jù)采集

作者提出的模型主要包括兩個(gè)核心模塊：在線空間記憶構(gòu)建空間推理與決策，二者在統(tǒng)一訓(xùn)練框架下協(xié)同優(yōu)化，實(shí)現(xiàn)探索與理解的閉環(huán)融合。

第一部分：在線空間記憶構(gòu)建

在每一幀時(shí)刻，模型接收來自環(huán)境的局部 RGB-D 序列作為輸入。每一張圖像首先被分別送入2D Encoder[4] 和3D Encoder[5] 進(jìn)行多模態(tài)特征編碼：其中 2D Encoder 使用 FastSAM [6] 和 DINO 提取語義分割與視覺特征，3D Encoder 基于 Sparse Convolution UNet 提取稀疏體素級(jí)別的空間表示。

隨后，這些多模態(tài)特征通過一個(gè)Query Decoder被轉(zhuǎn)化為一組結(jié)構(gòu)化的物體表示（Object Queries），涵蓋每個(gè)物體的空間位置、體積大小、語義特征和置信度信息 [7,8]。

同時(shí)，系統(tǒng)還利用Frontier-based Exploration[9] 方法識(shí)別尚未探索的空間邊界區(qū)域，生成對(duì)應(yīng)的 Frontier Queries（表示為 3D 空間坐標(biāo)點(diǎn)）。

最終，上述物體與邊界信息被寫入一個(gè)隨時(shí)間持續(xù)更新的動(dòng)態(tài)空間記憶庫（Dynamic Spatial Memory Bank），為后續(xù)的推理與決策提供結(jié)構(gòu)化空間知識(shí)。

第二部分：空間推理

在推理階段，系統(tǒng)從空間記憶庫中讀取當(dāng)前時(shí)刻的 Object Queries 與 Frontier Queries，并與任務(wù)文本指令進(jìn)行Cross-Attention 融合，以識(shí)別與語言目標(biāo)最相關(guān)的候選區(qū)域。

該模塊具備兩種響應(yīng)機(jī)制：

若語義目標(biāo)（如 “椅子”）在記憶庫中已有匹配物體，模型直接選擇其位置進(jìn)行導(dǎo)航；
若尚未觀測到目標(biāo)，系統(tǒng)則選擇最優(yōu)的 frontier 區(qū)域進(jìn)行下一步探索，以期在未來觀察中獲取相關(guān)語義信息。

數(shù)據(jù)收集過程

在數(shù)據(jù)構(gòu)建方面，作者提出了一種虛實(shí)結(jié)合的策略，融合了來自真實(shí) RGB-D 掃描數(shù)據(jù)與虛擬仿真環(huán)境的導(dǎo)航軌跡，以綜合提升模型的視覺理解與探索能力。

具體而言，作者從ScanNet[10] 和HM3D[11] 場景中構(gòu)建數(shù)據(jù)：其中，真實(shí)軌跡主要來源于 ScanNet 場景的問答與指令任務(wù)數(shù)據(jù)，這些數(shù)據(jù)包含豐富的視覺-語言對(duì)齊信息，有助于提升模型在復(fù)雜環(huán)境中的語義落地能力。另一方面，基于Habitat-Sim引擎構(gòu)建的大規(guī)模模擬軌跡，則覆蓋了更豐富的空間探索過程，顯著增強(qiáng)了模型的主動(dòng)探索與策略學(xué)習(xí)能力。

如下表所示，最終構(gòu)建的數(shù)據(jù)集涵蓋了超過90 萬條導(dǎo)航軌跡、上千萬級(jí)別的語言描述與目標(biāo)指令，并廣泛覆蓋不同的任務(wù)類型，包括視覺指引（VG）、探索行為（Exp）、目標(biāo)定位（Goal）等。

實(shí)驗(yàn)結(jié)果

作者在四個(gè)關(guān)鍵任務(wù)上對(duì) MTU3D 進(jìn)行了全面評(píng)估，分別是 HM3D-OVON [12]（支持開放詞匯的目標(biāo)導(dǎo)航）、GOAT-Bench [3]（多模態(tài)長期導(dǎo)航）、SG3D-Nav（多步驟任務(wù)導(dǎo)航）[13] 和 A-EQA（結(jié)合問答的主動(dòng)探索任務(wù)）[14]，展現(xiàn)了模型在多種具身智能場景中的適應(yīng)能力。

在 GOAT-Bench 基準(zhǔn)測試中，MTU3D 在三個(gè)評(píng)估集上的成功率分別達(dá)到 52.2%、48.4% 和 47.2%，相比現(xiàn)有方法最高提升超過 20%，顯著優(yōu)于其他模型。該任務(wù)涵蓋圖像、文本、類別等多種目標(biāo)指令，并要求智能體具備長期記憶能力，一次完成十個(gè)以上目標(biāo)導(dǎo)航。實(shí)驗(yàn)結(jié)果表明，MTU3D 在多模態(tài)理解與長期任務(wù)規(guī)劃方面展現(xiàn)出強(qiáng)大的泛化能力和穩(wěn)定表現(xiàn)。

下表展示了模型在SG3D-Nav 時(shí)序任務(wù)導(dǎo)航上的評(píng)估結(jié)果。相比強(qiáng)化學(xué)習(xí)方法（如 SenseAct-NN）和模塊化方法（如 Embodied Video Agent），MTU3D 在所有指標(biāo)上均取得顯著提升。該任務(wù)要求智能體按照多步語言指令依次完成多個(gè)子目標(biāo)，是對(duì)任務(wù)規(guī)劃與長期記憶能力的綜合考驗(yàn)。

作者在 A-EQA 任務(wù)中發(fā)現(xiàn)，使用 MTU3D 生成的探索軌跡提升了問答表現(xiàn)，GPT-4V 的成功率從 41.8% 提升到 44.2%。該結(jié)果表明 MTU3D 能為多模態(tài)大模型提供更高質(zhì)量的感知輸入，助力具身問答任務(wù)的發(fā)展。

在消融實(shí)驗(yàn)中，作者發(fā)現(xiàn)所提出的協(xié)同訓(xùn)練策略VLE在三個(gè)導(dǎo)航任務(wù)上均帶來明顯性能提升：在 OVON、GOAT 和 SG3D 任務(wù)中，成功率分別提升了5.5%、13.9% 和 5.0%。這一結(jié)果表明，VLE 有效促進(jìn)了視覺理解與空間探索的協(xié)同，顯著增強(qiáng)了模型在多任務(wù)導(dǎo)航場景中的表現(xiàn)。

模擬器中的結(jié)果展示，在多種任務(wù)下，模型能夠準(zhǔn)確理解目標(biāo)指令，并成功完成圖像導(dǎo)航、語言定位和多步驟操作等復(fù)雜任務(wù)。

作者還進(jìn)行了真機(jī)實(shí)驗(yàn)，以下三段視頻展示了模型在真實(shí)世界的能力。

視頻鏈接：

https://mp.weixin.qq.com/s/EpPhCVDtCZE90GsRflvrWw

總結(jié)

我們正處在人工智能從 “屏幕里的世界” 走向 “真實(shí)物理世界” 的關(guān)鍵階段。讓 AI 不僅能看懂圖像、聽懂語言，更要能在真實(shí)空間中自主移動(dòng)、理解指令、完成任務(wù)。

MTU3D這一工作的出現(xiàn)，將 “理解” 和 “探索” 結(jié)合在一起，讓 AI 像人一樣，一邊探索環(huán)境，一邊理解指令，逐步建立起對(duì)周圍世界的認(rèn)知。通過結(jié)合真實(shí)和虛擬的數(shù)據(jù)訓(xùn)練，MTU3D不僅在模擬器中表現(xiàn)出色，也可以在真實(shí)機(jī)器人上完成任務(wù)，給未來的具身導(dǎo)航提供了新的思路和更多的想象空間。

參考文獻(xiàn)：

[1] Liu, Y., et al. "Aligning cyber space with physical world: A comprehensive survey on embodied ai. arXiv 2024." arXiv preprint arXiv:2407.06886.

[2] Zhu, Ziyu, et al. "3d-vista: Pre-trained transformer for 3d vision and text alignment." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

[3] Khanna, Mukul, et al. "Goat-bench: A benchmark for multi-modal lifelong navigation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

[4] Caron, Mathilde, et al. "Emerging properties in self-supervised vision transformers." Proceedings of the IEEE/CVF international conference on computer vision. 2021.

[5] Liu, Baoyuan, et al. "Sparse convolutional neural networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.

[6] Zhang, Chaoning, et al. "Faster segment anything: Towards lightweight sam for mobile applications." arXiv preprint arXiv:2306.14289 (2023).

[7] Zhu, Ziyu, et al. "Unifying 3d vision-language understanding via promptable queries." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024.

[8] Xu, Xiuwei, et al. "Embodiedsam: Online segment any 3d thing in real time." arXiv preprint arXiv:2408.11811 (2024).

[9] Yamauchi, Brian. "Frontier-based exploration using multiple robots." Proceedings of the second international conference on Autonomous agents. 1998.

[10] Dai, Angela, et al. "Scannet: Richly-annotated 3d reconstructions of indoor scenes." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

[11] Ramakrishnan, Santhosh K., et al. "Habitat-matterport 3d dataset (hm3d): 1000 large-scale 3d environments for embodied ai." arXiv preprint arXiv:2109.08238 (2021).

[12] Yokoyama, Naoki, et al. "HM3D-OVON: A dataset and benchmark for open-vocabulary object goal navigation." 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2024.

[13] Zhang, Zhuofan, et al. "Task-oriented sequential grounding in 3d scenes." arXiv preprint arXiv:2408.04034 (2024).

[14] Majumdar, Arjun, et al. "Openeqa: Embodied question answering in the era of foundation models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2024.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.