本論文核心團(tuán)隊(duì)來自北京通用人工智能研究院機(jī)器學(xué)習(xí)實(shí)驗(yàn)室,團(tuán)隊(duì)負(fù)責(zé)人李慶博士長期從事多模態(tài)理解、多模態(tài)智能體、具身智能等方向,主頁:https://liqing.io
近年來,人工智能正逐步從虛擬的互聯(lián)網(wǎng)空間(Cyber Space)邁向真實(shí)的物理世界(Physical Space)[1]。這一轉(zhuǎn)變的核心挑戰(zhàn)之一,是如何賦予智能體對(duì)三維空間的理解能力 [2],實(shí)現(xiàn)自然語言與真實(shí)物理環(huán)境的對(duì)齊(grounding)。盡管已有的 3D 空間理解模型在視覺感知和語言對(duì)齊方面取得了顯著進(jìn)展,但它們普遍依賴于靜態(tài)的世界的觀察,缺乏對(duì)主動(dòng)探索行為的建模。
針對(duì)這一問題,清華大學(xué)、北京通研院、北理工與北航的研究團(tuán)隊(duì)聯(lián)合提出了一種統(tǒng)一空間理解與主動(dòng)探索的新型模型。該方法使智能體能夠在動(dòng)態(tài)探索過程中逐步構(gòu)建對(duì)環(huán)境的認(rèn)知,從而實(shí)現(xiàn)更高效的空間感知與自主導(dǎo)航,為智能體在物理世界中的任務(wù)執(zhí)行奠定了基礎(chǔ)。這個(gè)工作已被 ICCV 2025 接收,所有審稿人一致給出滿分評(píng)價(jià)。
- 論文標(biāo)題:Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation
- 論文鏈接:https://arxiv.org/abs/2507.04047
- 項(xiàng)目主頁:https://mtu3d.github.io
- 代碼鏈接:https://github.com/MTU3D/MTU3D
理解與探索:具身導(dǎo)航中的 “雙面鏡”
在具身導(dǎo)航(Embodied Navigation)任務(wù)中 [3],智能體需要根據(jù)人類的指令 —— 可能是一句話、一張圖片、或者一個(gè)任務(wù)描述 —— 在復(fù)雜的物理空間中找到目標(biāo)位置。它不僅要 “聽懂任務(wù)”,還要 “會(huì)探索”,這正是空間理解和具身智能中的關(guān)鍵挑戰(zhàn)。如下圖所示,導(dǎo)航過程中其實(shí)包含兩個(gè)交織進(jìn)行的關(guān)鍵步驟:
- 理解(Grounding):智能體需要先理解指令在空間中具體指的是什么,比如 “去餐桌” 意味著它要找到與 “餐桌” 這個(gè)概念匹配的空間位置。
- 探索(Exploring):在還不完全了解環(huán)境時(shí),智能體必須主動(dòng)移動(dòng)、觀察和嘗試,才能發(fā)現(xiàn)目標(biāo)物品或區(qū)域。
這就像人類在空間中去導(dǎo)航一樣,如果你想找吃的,可能會(huì)優(yōu)先去廚房或餐廳看看 —— 這個(gè) “方向感” 正是基于人對(duì)空間的理解。而真正找到零食,還需要你在廚房中主動(dòng)探索。這說明,理解和探索不是兩個(gè)獨(dú)立的過程,而是互相推動(dòng)、交替進(jìn)行的
研究難點(diǎn):表征、訓(xùn)練目標(biāo)和數(shù)據(jù)采集
- 實(shí)時(shí)語義表征:如何構(gòu)建可在線更新的 3D 語義地圖,既包含精確的空間位置,又融合豐富的語義信息,并能持續(xù)處理來自 RGB-D 流的數(shù)據(jù)?
- 探索-理解協(xié)同訓(xùn)練:如何將探索策略與語義理解統(tǒng)一在一個(gè)訓(xùn)練目標(biāo)中聯(lián)合優(yōu)化,打破傳統(tǒng)模塊化方法中兩者割裂的問題?
- 高效數(shù)據(jù)采集:如何降低真實(shí)世界導(dǎo)航數(shù)據(jù)采集的成本,利用虛擬與真實(shí)環(huán)境結(jié)合,構(gòu)建自動(dòng)化、可擴(kuò)展的數(shù)據(jù)采集流程?
核心思路:探索和理解協(xié)同訓(xùn)練
如下圖所示,作者將具身導(dǎo)航建模為一個(gè)探索與視覺落地(grounding)協(xié)同進(jìn)行的閉環(huán)過程
在探索階段,智能體通過連續(xù)的 RGB-D 感知不斷積累空間記憶,主動(dòng)尋找潛在的目標(biāo)位置。當(dāng)空間記憶中包含了足夠的視覺語義信息后,模型便進(jìn)入視覺落地階段 —— 根據(jù)語言指令對(duì)空間中的候選區(qū)域進(jìn)行匹配,并導(dǎo)航至最符合語義的目標(biāo)位置。
這種設(shè)計(jì)將強(qiáng)化學(xué)習(xí)方法中的主動(dòng)探索能力3D 視覺語言模型的語義理解能力統(tǒng)一在一個(gè)閉環(huán)系統(tǒng)中。
探索推動(dòng)理解的發(fā)生,理解又反過來引導(dǎo)更高效的探索,從而實(shí)現(xiàn)端到端的協(xié)同訓(xùn)練與任務(wù)執(zhí)行。
模型設(shè)計(jì)和數(shù)據(jù)采集
作者提出的模型主要包括兩個(gè)核心模塊:在線空間記憶構(gòu)建空間推理與決策,二者在統(tǒng)一訓(xùn)練框架下協(xié)同優(yōu)化,實(shí)現(xiàn)探索與理解的閉環(huán)融合。
第一部分:在線空間記憶構(gòu)建
在每一幀時(shí)刻,模型接收來自環(huán)境的局部 RGB-D 序列作為輸入。每一張圖像首先被分別送入2D Encoder[4] 和3D Encoder[5] 進(jìn)行多模態(tài)特征編碼:其中 2D Encoder 使用 FastSAM [6] 和 DINO 提取語義分割與視覺特征,3D Encoder 基于 Sparse Convolution UNet 提取稀疏體素級(jí)別的空間表示。
隨后,這些多模態(tài)特征通過一個(gè)Query Decoder被轉(zhuǎn)化為一組結(jié)構(gòu)化的物體表示(Object Queries),涵蓋每個(gè)物體的空間位置、體積大小、語義特征和置信度信息 [7,8]。
同時(shí),系統(tǒng)還利用Frontier-based Exploration[9] 方法識(shí)別尚未探索的空間邊界區(qū)域,生成對(duì)應(yīng)的 Frontier Queries(表示為 3D 空間坐標(biāo)點(diǎn))。
最終,上述物體與邊界信息被寫入一個(gè)隨時(shí)間持續(xù)更新的動(dòng)態(tài)空間記憶庫(Dynamic Spatial Memory Bank),為后續(xù)的推理與決策提供結(jié)構(gòu)化空間知識(shí)。
第二部分:空間推理
在推理階段,系統(tǒng)從空間記憶庫中讀取當(dāng)前時(shí)刻的 Object Queries 與 Frontier Queries,并與任務(wù)文本指令進(jìn)行Cross-Attention 融合,以識(shí)別與語言目標(biāo)最相關(guān)的候選區(qū)域。
該模塊具備兩種響應(yīng)機(jī)制:
- 若語義目標(biāo)(如 “椅子”)在記憶庫中已有匹配物體,模型直接選擇其位置進(jìn)行導(dǎo)航;
- 若尚未觀測到目標(biāo),系統(tǒng)則選擇最優(yōu)的 frontier 區(qū)域進(jìn)行下一步探索,以期在未來觀察中獲取相關(guān)語義信息。
數(shù)據(jù)收集過程
在數(shù)據(jù)構(gòu)建方面,作者提出了一種虛實(shí)結(jié)合的策略,融合了來自真實(shí) RGB-D 掃描數(shù)據(jù)與虛擬仿真環(huán)境的導(dǎo)航軌跡,以綜合提升模型的視覺理解與探索能力。
具體而言,作者從ScanNet[10] 和HM3D[11] 場景中構(gòu)建數(shù)據(jù):其中,真實(shí)軌跡主要來源于 ScanNet 場景的問答與指令任務(wù)數(shù)據(jù),這些數(shù)據(jù)包含豐富的視覺-語言對(duì)齊信息,有助于提升模型在復(fù)雜環(huán)境中的語義落地能力。另一方面,基于Habitat-Sim引擎構(gòu)建的大規(guī)模模擬軌跡,則覆蓋了更豐富的空間探索過程,顯著增強(qiáng)了模型的主動(dòng)探索與策略學(xué)習(xí)能力。
如下表所示,最終構(gòu)建的數(shù)據(jù)集涵蓋了超過90 萬條導(dǎo)航軌跡、上千萬級(jí)別的語言描述與目標(biāo)指令,并廣泛覆蓋不同的任務(wù)類型,包括視覺指引(VG)、探索行為(Exp)、目標(biāo)定位(Goal)等。
實(shí)驗(yàn)結(jié)果
作者在四個(gè)關(guān)鍵任務(wù)上對(duì) MTU3D 進(jìn)行了全面評(píng)估,分別是 HM3D-OVON [12](支持開放詞匯的目標(biāo)導(dǎo)航)、GOAT-Bench [3](多模態(tài)長期導(dǎo)航)、SG3D-Nav(多步驟任務(wù)導(dǎo)航)[13] 和 A-EQA(結(jié)合問答的主動(dòng)探索任務(wù))[14],展現(xiàn)了模型在多種具身智能場景中的適應(yīng)能力。
在 GOAT-Bench 基準(zhǔn)測試中,MTU3D 在三個(gè)評(píng)估集上的成功率分別達(dá)到 52.2%、48.4% 和 47.2%,相比現(xiàn)有方法最高提升超過 20%,顯著優(yōu)于其他模型。該任務(wù)涵蓋圖像、文本、類別等多種目標(biāo)指令,并要求智能體具備長期記憶能力,一次完成十個(gè)以上目標(biāo)導(dǎo)航。實(shí)驗(yàn)結(jié)果表明,MTU3D 在多模態(tài)理解與長期任務(wù)規(guī)劃方面展現(xiàn)出強(qiáng)大的泛化能力和穩(wěn)定表現(xiàn)。
下表展示了模型在SG3D-Nav 時(shí)序任務(wù)導(dǎo)航上的評(píng)估結(jié)果。相比強(qiáng)化學(xué)習(xí)方法(如 SenseAct-NN)和模塊化方法(如 Embodied Video Agent),MTU3D 在所有指標(biāo)上均取得顯著提升。該任務(wù)要求智能體按照多步語言指令依次完成多個(gè)子目標(biāo),是對(duì)任務(wù)規(guī)劃與長期記憶能力的綜合考驗(yàn)。
作者在 A-EQA 任務(wù)中發(fā)現(xiàn),使用 MTU3D 生成的探索軌跡提升了問答表現(xiàn),GPT-4V 的成功率從 41.8% 提升到 44.2%。 該結(jié)果表明 MTU3D 能為多模態(tài)大模型提供更高質(zhì)量的感知輸入,助力具身問答任務(wù)的發(fā)展。
在消融實(shí)驗(yàn)中,作者發(fā)現(xiàn)所提出的協(xié)同訓(xùn)練策略VLE在三個(gè)導(dǎo)航任務(wù)上均帶來明顯性能提升:在 OVON、GOAT 和 SG3D 任務(wù)中,成功率分別提升了5.5%、13.9% 和 5.0%。這一結(jié)果表明,VLE 有效促進(jìn)了視覺理解與空間探索的協(xié)同,顯著增強(qiáng)了模型在多任務(wù)導(dǎo)航場景中的表現(xiàn)。
模擬器中的結(jié)果展示,在多種任務(wù)下,模型能夠準(zhǔn)確理解目標(biāo)指令,并成功完成圖像導(dǎo)航、語言定位和多步驟操作等復(fù)雜任務(wù)。
作者還進(jìn)行了真機(jī)實(shí)驗(yàn),以下三段視頻展示了模型在真實(shí)世界的能力。
視頻鏈接:
https://mp.weixin.qq.com/s/EpPhCVDtCZE90GsRflvrWw
總結(jié)
我們正處在人工智能從 “屏幕里的世界” 走向 “真實(shí)物理世界” 的關(guān)鍵階段。讓 AI 不僅能看懂圖像、聽懂語言,更要能在真實(shí)空間中自主移動(dòng)、理解指令、完成任務(wù)。
MTU3D這一工作的出現(xiàn),將 “理解” 和 “探索” 結(jié)合在一起,讓 AI 像人一樣,一邊探索環(huán)境,一邊理解指令,逐步建立起對(duì)周圍世界的認(rèn)知。通過結(jié)合真實(shí)和虛擬的數(shù)據(jù)訓(xùn)練,MTU3D不僅在模擬器中表現(xiàn)出色,也可以在真實(shí)機(jī)器人上完成任務(wù),給未來的具身導(dǎo)航提供了新的思路和更多的想象空間。
參考文獻(xiàn):
[1] Liu, Y., et al. "Aligning cyber space with physical world: A comprehensive survey on embodied ai. arXiv 2024." arXiv preprint arXiv:2407.06886.
[2] Zhu, Ziyu, et al. "3d-vista: Pre-trained transformer for 3d vision and text alignment." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
[3] Khanna, Mukul, et al. "Goat-bench: A benchmark for multi-modal lifelong navigation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.
[4] Caron, Mathilde, et al. "Emerging properties in self-supervised vision transformers." Proceedings of the IEEE/CVF international conference on computer vision. 2021.
[5] Liu, Baoyuan, et al. "Sparse convolutional neural networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
[6] Zhang, Chaoning, et al. "Faster segment anything: Towards lightweight sam for mobile applications." arXiv preprint arXiv:2306.14289 (2023).
[7] Zhu, Ziyu, et al. "Unifying 3d vision-language understanding via promptable queries." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024.
[8] Xu, Xiuwei, et al. "Embodiedsam: Online segment any 3d thing in real time." arXiv preprint arXiv:2408.11811 (2024).
[9] Yamauchi, Brian. "Frontier-based exploration using multiple robots." Proceedings of the second international conference on Autonomous agents. 1998.
[10] Dai, Angela, et al. "Scannet: Richly-annotated 3d reconstructions of indoor scenes." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
[11] Ramakrishnan, Santhosh K., et al. "Habitat-matterport 3d dataset (hm3d): 1000 large-scale 3d environments for embodied ai." arXiv preprint arXiv:2109.08238 (2021).
[12] Yokoyama, Naoki, et al. "HM3D-OVON: A dataset and benchmark for open-vocabulary object goal navigation." 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2024.
[13] Zhang, Zhuofan, et al. "Task-oriented sequential grounding in 3d scenes." arXiv preprint arXiv:2408.04034 (2024).
[14] Majumdar, Arjun, et al. "Openeqa: Embodied question answering in the era of foundation models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2024.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.