99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ICCV 2025滿分論文:一個(gè)模型實(shí)現(xiàn)空間理解與主動(dòng)探索大統(tǒng)一

0
分享至



本論文核心團(tuán)隊(duì)來自北京通用人工智能研究院機(jī)器學(xué)習(xí)實(shí)驗(yàn)室,團(tuán)隊(duì)負(fù)責(zé)人李慶博士長期從事多模態(tài)理解、多模態(tài)智能體、具身智能等方向,主頁:https://liqing.io



近年來,人工智能正逐步從虛擬的互聯(lián)網(wǎng)空間(Cyber Space)邁向真實(shí)的物理世界(Physical Space)[1]。這一轉(zhuǎn)變的核心挑戰(zhàn)之一,是如何賦予智能體對(duì)三維空間的理解能力 [2],實(shí)現(xiàn)自然語言與真實(shí)物理環(huán)境的對(duì)齊(grounding)。盡管已有的 3D 空間理解模型在視覺感知和語言對(duì)齊方面取得了顯著進(jìn)展,但它們普遍依賴于靜態(tài)的世界的觀察,缺乏對(duì)主動(dòng)探索行為的建模。

針對(duì)這一問題,清華大學(xué)、北京通研院、北理工與北航的研究團(tuán)隊(duì)聯(lián)合提出了一種統(tǒng)一空間理解與主動(dòng)探索的新型模型。該方法使智能體能夠在動(dòng)態(tài)探索過程中逐步構(gòu)建對(duì)環(huán)境的認(rèn)知,從而實(shí)現(xiàn)更高效的空間感知與自主導(dǎo)航,為智能體在物理世界中的任務(wù)執(zhí)行奠定了基礎(chǔ)。這個(gè)工作已被 ICCV 2025 接收,所有審稿人一致給出滿分評(píng)價(jià)。



  • 論文標(biāo)題:Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation
  • 論文鏈接:https://arxiv.org/abs/2507.04047
  • 項(xiàng)目主頁:https://mtu3d.github.io
  • 代碼鏈接:https://github.com/MTU3D/MTU3D

理解與探索:具身導(dǎo)航中的 “雙面鏡”

在具身導(dǎo)航(Embodied Navigation)任務(wù)中 [3],智能體需要根據(jù)人類的指令 —— 可能是一句話、一張圖片、或者一個(gè)任務(wù)描述 —— 在復(fù)雜的物理空間中找到目標(biāo)位置。它不僅要 “聽懂任務(wù)”,還要 “會(huì)探索”,這正是空間理解和具身智能中的關(guān)鍵挑戰(zhàn)。如下圖所示,導(dǎo)航過程中其實(shí)包含兩個(gè)交織進(jìn)行的關(guān)鍵步驟:

  • 理解(Grounding):智能體需要先理解指令在空間中具體指的是什么,比如 “去餐桌” 意味著它要找到與 “餐桌” 這個(gè)概念匹配的空間位置。
  • 探索(Exploring):在還不完全了解環(huán)境時(shí),智能體必須主動(dòng)移動(dòng)、觀察和嘗試,才能發(fā)現(xiàn)目標(biāo)物品或區(qū)域。

這就像人類在空間中去導(dǎo)航一樣,如果你想找吃的,可能會(huì)優(yōu)先去廚房或餐廳看看 —— 這個(gè) “方向感” 正是基于人對(duì)空間的理解。而真正找到零食,還需要你在廚房中主動(dòng)探索。這說明,理解和探索不是兩個(gè)獨(dú)立的過程,而是互相推動(dòng)、交替進(jìn)行的



研究難點(diǎn):表征、訓(xùn)練目標(biāo)和數(shù)據(jù)采集

  1. 實(shí)時(shí)語義表征:如何構(gòu)建可在線更新的 3D 語義地圖,既包含精確的空間位置,又融合豐富的語義信息,并能持續(xù)處理來自 RGB-D 流的數(shù)據(jù)?
  2. 探索-理解協(xié)同訓(xùn)練:如何將探索策略與語義理解統(tǒng)一在一個(gè)訓(xùn)練目標(biāo)中聯(lián)合優(yōu)化,打破傳統(tǒng)模塊化方法中兩者割裂的問題?
  3. 高效數(shù)據(jù)采集:如何降低真實(shí)世界導(dǎo)航數(shù)據(jù)采集的成本,利用虛擬與真實(shí)環(huán)境結(jié)合,構(gòu)建自動(dòng)化、可擴(kuò)展的數(shù)據(jù)采集流程?

核心思路:探索和理解協(xié)同訓(xùn)練

如下圖所示,作者將具身導(dǎo)航建模為一個(gè)探索與視覺落地(grounding)協(xié)同進(jìn)行的閉環(huán)過程



在探索階段,智能體通過連續(xù)的 RGB-D 感知不斷積累空間記憶,主動(dòng)尋找潛在的目標(biāo)位置。當(dāng)空間記憶中包含了足夠的視覺語義信息后,模型便進(jìn)入視覺落地階段 —— 根據(jù)語言指令對(duì)空間中的候選區(qū)域進(jìn)行匹配,并導(dǎo)航至最符合語義的目標(biāo)位置。

這種設(shè)計(jì)將強(qiáng)化學(xué)習(xí)方法中的主動(dòng)探索能力3D 視覺語言模型的語義理解能力統(tǒng)一在一個(gè)閉環(huán)系統(tǒng)中。

探索推動(dòng)理解的發(fā)生,理解又反過來引導(dǎo)更高效的探索,從而實(shí)現(xiàn)端到端的協(xié)同訓(xùn)練與任務(wù)執(zhí)行。

模型設(shè)計(jì)和數(shù)據(jù)采集

作者提出的模型主要包括兩個(gè)核心模塊:在線空間記憶構(gòu)建空間推理與決策,二者在統(tǒng)一訓(xùn)練框架下協(xié)同優(yōu)化,實(shí)現(xiàn)探索與理解的閉環(huán)融合。

第一部分:在線空間記憶構(gòu)建

在每一幀時(shí)刻,模型接收來自環(huán)境的局部 RGB-D 序列作為輸入。每一張圖像首先被分別送入2D Encoder[4] 和3D Encoder[5] 進(jìn)行多模態(tài)特征編碼:其中 2D Encoder 使用 FastSAM [6] 和 DINO 提取語義分割與視覺特征,3D Encoder 基于 Sparse Convolution UNet 提取稀疏體素級(jí)別的空間表示。

隨后,這些多模態(tài)特征通過一個(gè)Query Decoder被轉(zhuǎn)化為一組結(jié)構(gòu)化的物體表示(Object Queries),涵蓋每個(gè)物體的空間位置、體積大小、語義特征和置信度信息 [7,8]。

同時(shí),系統(tǒng)還利用Frontier-based Exploration[9] 方法識(shí)別尚未探索的空間邊界區(qū)域,生成對(duì)應(yīng)的 Frontier Queries(表示為 3D 空間坐標(biāo)點(diǎn))。

最終,上述物體與邊界信息被寫入一個(gè)隨時(shí)間持續(xù)更新的動(dòng)態(tài)空間記憶庫(Dynamic Spatial Memory Bank),為后續(xù)的推理與決策提供結(jié)構(gòu)化空間知識(shí)。

第二部分:空間推理

在推理階段,系統(tǒng)從空間記憶庫中讀取當(dāng)前時(shí)刻的 Object Queries 與 Frontier Queries,并與任務(wù)文本指令進(jìn)行Cross-Attention 融合,以識(shí)別與語言目標(biāo)最相關(guān)的候選區(qū)域。

該模塊具備兩種響應(yīng)機(jī)制:

  1. 若語義目標(biāo)(如 “椅子”)在記憶庫中已有匹配物體,模型直接選擇其位置進(jìn)行導(dǎo)航;
  2. 若尚未觀測到目標(biāo),系統(tǒng)則選擇最優(yōu)的 frontier 區(qū)域進(jìn)行下一步探索,以期在未來觀察中獲取相關(guān)語義信息。



數(shù)據(jù)收集過程

在數(shù)據(jù)構(gòu)建方面,作者提出了一種虛實(shí)結(jié)合的策略,融合了來自真實(shí) RGB-D 掃描數(shù)據(jù)與虛擬仿真環(huán)境的導(dǎo)航軌跡,以綜合提升模型的視覺理解與探索能力。

具體而言,作者從ScanNet[10] 和HM3D[11] 場景中構(gòu)建數(shù)據(jù):其中,真實(shí)軌跡主要來源于 ScanNet 場景的問答與指令任務(wù)數(shù)據(jù),這些數(shù)據(jù)包含豐富的視覺-語言對(duì)齊信息,有助于提升模型在復(fù)雜環(huán)境中的語義落地能力。另一方面,基于Habitat-Sim引擎構(gòu)建的大規(guī)模模擬軌跡,則覆蓋了更豐富的空間探索過程,顯著增強(qiáng)了模型的主動(dòng)探索與策略學(xué)習(xí)能力。

如下表所示,最終構(gòu)建的數(shù)據(jù)集涵蓋了超過90 萬條導(dǎo)航軌跡、上千萬級(jí)別的語言描述與目標(biāo)指令,并廣泛覆蓋不同的任務(wù)類型,包括視覺指引(VG)、探索行為(Exp)、目標(biāo)定位(Goal)等。

實(shí)驗(yàn)結(jié)果

作者在四個(gè)關(guān)鍵任務(wù)上對(duì) MTU3D 進(jìn)行了全面評(píng)估,分別是 HM3D-OVON [12](支持開放詞匯的目標(biāo)導(dǎo)航)、GOAT-Bench [3](多模態(tài)長期導(dǎo)航)、SG3D-Nav(多步驟任務(wù)導(dǎo)航)[13] 和 A-EQA(結(jié)合問答的主動(dòng)探索任務(wù))[14],展現(xiàn)了模型在多種具身智能場景中的適應(yīng)能力。

在 GOAT-Bench 基準(zhǔn)測試中,MTU3D 在三個(gè)評(píng)估集上的成功率分別達(dá)到 52.2%、48.4% 和 47.2%,相比現(xiàn)有方法最高提升超過 20%,顯著優(yōu)于其他模型。該任務(wù)涵蓋圖像、文本、類別等多種目標(biāo)指令,并要求智能體具備長期記憶能力,一次完成十個(gè)以上目標(biāo)導(dǎo)航。實(shí)驗(yàn)結(jié)果表明,MTU3D 在多模態(tài)理解與長期任務(wù)規(guī)劃方面展現(xiàn)出強(qiáng)大的泛化能力和穩(wěn)定表現(xiàn)。



下表展示了模型在SG3D-Nav 時(shí)序任務(wù)導(dǎo)航上的評(píng)估結(jié)果。相比強(qiáng)化學(xué)習(xí)方法(如 SenseAct-NN)和模塊化方法(如 Embodied Video Agent),MTU3D 在所有指標(biāo)上均取得顯著提升。該任務(wù)要求智能體按照多步語言指令依次完成多個(gè)子目標(biāo),是對(duì)任務(wù)規(guī)劃與長期記憶能力的綜合考驗(yàn)。



作者在 A-EQA 任務(wù)中發(fā)現(xiàn),使用 MTU3D 生成的探索軌跡提升了問答表現(xiàn),GPT-4V 的成功率從 41.8% 提升到 44.2%。 該結(jié)果表明 MTU3D 能為多模態(tài)大模型提供更高質(zhì)量的感知輸入,助力具身問答任務(wù)的發(fā)展。



在消融實(shí)驗(yàn)中,作者發(fā)現(xiàn)所提出的協(xié)同訓(xùn)練策略VLE在三個(gè)導(dǎo)航任務(wù)上均帶來明顯性能提升:在 OVON、GOAT 和 SG3D 任務(wù)中,成功率分別提升了5.5%、13.9% 和 5.0%。這一結(jié)果表明,VLE 有效促進(jìn)了視覺理解與空間探索的協(xié)同,顯著增強(qiáng)了模型在多任務(wù)導(dǎo)航場景中的表現(xiàn)。



模擬器中的結(jié)果展示,在多種任務(wù)下,模型能夠準(zhǔn)確理解目標(biāo)指令,并成功完成圖像導(dǎo)航、語言定位和多步驟操作等復(fù)雜任務(wù)。









作者還進(jìn)行了真機(jī)實(shí)驗(yàn),以下三段視頻展示了模型在真實(shí)世界的能力。

視頻鏈接:

https://mp.weixin.qq.com/s/EpPhCVDtCZE90GsRflvrWw

總結(jié)

我們正處在人工智能從 “屏幕里的世界” 走向 “真實(shí)物理世界” 的關(guān)鍵階段。讓 AI 不僅能看懂圖像、聽懂語言,更要能在真實(shí)空間中自主移動(dòng)、理解指令、完成任務(wù)。

MTU3D這一工作的出現(xiàn),將 “理解” 和 “探索” 結(jié)合在一起,讓 AI 像人一樣,一邊探索環(huán)境,一邊理解指令,逐步建立起對(duì)周圍世界的認(rèn)知。通過結(jié)合真實(shí)和虛擬的數(shù)據(jù)訓(xùn)練,MTU3D不僅在模擬器中表現(xiàn)出色,也可以在真實(shí)機(jī)器人上完成任務(wù),給未來的具身導(dǎo)航提供了新的思路和更多的想象空間。

參考文獻(xiàn):

[1] Liu, Y., et al. "Aligning cyber space with physical world: A comprehensive survey on embodied ai. arXiv 2024." arXiv preprint arXiv:2407.06886.

[2] Zhu, Ziyu, et al. "3d-vista: Pre-trained transformer for 3d vision and text alignment." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

[3] Khanna, Mukul, et al. "Goat-bench: A benchmark for multi-modal lifelong navigation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

[4] Caron, Mathilde, et al. "Emerging properties in self-supervised vision transformers." Proceedings of the IEEE/CVF international conference on computer vision. 2021.

[5] Liu, Baoyuan, et al. "Sparse convolutional neural networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.

[6] Zhang, Chaoning, et al. "Faster segment anything: Towards lightweight sam for mobile applications." arXiv preprint arXiv:2306.14289 (2023).

[7] Zhu, Ziyu, et al. "Unifying 3d vision-language understanding via promptable queries." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024.

[8] Xu, Xiuwei, et al. "Embodiedsam: Online segment any 3d thing in real time." arXiv preprint arXiv:2408.11811 (2024).

[9] Yamauchi, Brian. "Frontier-based exploration using multiple robots." Proceedings of the second international conference on Autonomous agents. 1998.

[10] Dai, Angela, et al. "Scannet: Richly-annotated 3d reconstructions of indoor scenes." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

[11] Ramakrishnan, Santhosh K., et al. "Habitat-matterport 3d dataset (hm3d): 1000 large-scale 3d environments for embodied ai." arXiv preprint arXiv:2109.08238 (2021).

[12] Yokoyama, Naoki, et al. "HM3D-OVON: A dataset and benchmark for open-vocabulary object goal navigation." 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2024.

[13] Zhang, Zhuofan, et al. "Task-oriented sequential grounding in 3d scenes." arXiv preprint arXiv:2408.04034 (2024).

[14] Majumdar, Arjun, et al. "Openeqa: Embodied question answering in the era of foundation models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2024.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
全網(wǎng)都在替宗馥莉出主意

全網(wǎng)都在替宗馥莉出主意

長三角momo
2025-07-14 17:32:24
宗婕莉慶生照曝光,打扮漂亮很像媽媽,多位學(xué)生家長聯(lián)合發(fā)聲力挺

宗婕莉慶生照曝光,打扮漂亮很像媽媽,多位學(xué)生家長聯(lián)合發(fā)聲力挺

古希臘掌管松餅的神
2025-07-14 20:43:56
甘肅“鉛中毒”再現(xiàn),“血鉛檢測”造假才是提級(jí)調(diào)查的重點(diǎn)

甘肅“鉛中毒”再現(xiàn),“血鉛檢測”造假才是提級(jí)調(diào)查的重點(diǎn)

空瓶子
2025-07-14 13:32:32
央視新聞的大愛:關(guān)注加沙地區(qū)的兒童比天水的兒童更多

央視新聞的大愛:關(guān)注加沙地區(qū)的兒童比天水的兒童更多

老頭和你隨便聊聊
2025-07-14 16:57:53
烏克蘭“人民戰(zhàn)爭”來了!烏克蘭民眾通過APP上傳坐標(biāo)給俄軍,炸自家征兵處?

烏克蘭“人民戰(zhàn)爭”來了!烏克蘭民眾通過APP上傳坐標(biāo)給俄軍,炸自家征兵處?

軍武速遞
2025-07-14 20:19:20
航天員聶海勝妻子:丈夫出征太空前結(jié)束婚姻,如今活出自我風(fēng)采

航天員聶海勝妻子:丈夫出征太空前結(jié)束婚姻,如今活出自我風(fēng)采

品茗談史論世事
2025-07-14 14:52:02
一次合體,人情冷暖、江湖地位,在46歲朱孝天身上體現(xiàn)的淋漓盡致

一次合體,人情冷暖、江湖地位,在46歲朱孝天身上體現(xiàn)的淋漓盡致

夢(mèng)史
2025-07-14 12:41:20
反轉(zhuǎn)!當(dāng)事人老外發(fā)文,透露更多細(xì)節(jié),網(wǎng)友被質(zhì)疑借"國格"搞網(wǎng)暴

反轉(zhuǎn)!當(dāng)事人老外發(fā)文,透露更多細(xì)節(jié),網(wǎng)友被質(zhì)疑借"國格"搞網(wǎng)暴

派大星紀(jì)錄片
2025-07-14 18:29:26
國民黨的二號(hào)人物,毛主席唯獨(dú)不接受他投降,老蔣坦言也想干掉他

國民黨的二號(hào)人物,毛主席唯獨(dú)不接受他投降,老蔣坦言也想干掉他

南書房
2025-07-14 18:55:07
150億“繼承戰(zhàn)”上演!宗馥莉被起訴,娃哈哈發(fā)聲!

150億“繼承戰(zhàn)”上演!宗馥莉被起訴,娃哈哈發(fā)聲!

中國商報(bào)
2025-07-14 14:34:35
鬧大了!讓環(huán)衛(wèi)工翻8噸垃圾找手表,當(dāng)事人得意,領(lǐng)導(dǎo)發(fā)言窩火

鬧大了!讓環(huán)衛(wèi)工翻8噸垃圾找手表,當(dāng)事人得意,領(lǐng)導(dǎo)發(fā)言窩火

鋭娛之樂
2025-07-14 14:57:42
10.9億元!潮汕富豪把西班牙人俱樂部賣了!公司去年巨虧4.6億元,前不久靠“西甲撲救王”解約賺了1.6億元

10.9億元!潮汕富豪把西班牙人俱樂部賣了!公司去年巨虧4.6億元,前不久靠“西甲撲救王”解約賺了1.6億元

每日經(jīng)濟(jì)新聞
2025-07-14 22:16:07
一00后小伙子第一次坐飛機(jī),一口氣發(fā)了18條朋友圈,結(jié)果悲劇了…

一00后小伙子第一次坐飛機(jī),一口氣發(fā)了18條朋友圈,結(jié)果悲劇了…

明月雜談
2025-07-14 07:27:07
高考生被騙到緬北,和家人聊天記錄令人心酸,網(wǎng)友:已經(jīng)回不來了

高考生被騙到緬北,和家人聊天記錄令人心酸,網(wǎng)友:已經(jīng)回不來了

妍妍教育日記
2025-07-14 15:34:34
青海西寧曹家堡機(jī)場,你們這是在殺人!

青海西寧曹家堡機(jī)場,你們這是在殺人!

回旋鏢
2025-07-14 18:04:51
用鋼瓶在1萬米深海裝滿水后密封起來,撈上來后瓶內(nèi)還有高壓嗎?

用鋼瓶在1萬米深海裝滿水后密封起來,撈上來后瓶內(nèi)還有高壓嗎?

魅力科學(xué)君
2025-07-14 18:50:41
貴州道真縣通報(bào)“女童被車撞亡”:司機(jī)已被刑拘,不存在二次碾壓

貴州道真縣通報(bào)“女童被車撞亡”:司機(jī)已被刑拘,不存在二次碾壓

界面新聞
2025-07-15 09:16:12
朱雨玲奪冠眾生相:前世一眼含熱淚,陳熠閉眼,王勵(lì)勤臉色鐵青

朱雨玲奪冠眾生相:前世一眼含熱淚,陳熠閉眼,王勵(lì)勤臉色鐵青

二哥聊球
2025-07-14 10:38:36
阿根廷正副總統(tǒng)“公開決裂”,法媒:這對(duì)本就脆弱的米萊執(zhí)政聯(lián)盟構(gòu)成沉重打擊

阿根廷正副總統(tǒng)“公開決裂”,法媒:這對(duì)本就脆弱的米萊執(zhí)政聯(lián)盟構(gòu)成沉重打擊

環(huán)球網(wǎng)資訊
2025-07-15 06:40:25
業(yè)務(wù)水平堪憂!國航客機(jī)險(xiǎn)些與順豐貨機(jī)空中相撞,駕駛員事后頻繁爆粗口,并推卸責(zé)任

業(yè)務(wù)水平堪憂!國航客機(jī)險(xiǎn)些與順豐貨機(jī)空中相撞,駕駛員事后頻繁爆粗口,并推卸責(zé)任

小蘿卜絲
2025-07-14 15:40:55
2025-07-15 09:40:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10856文章數(shù) 142377關(guān)注度
往期回顧 全部

科技要聞

高調(diào)挖人后,扎克伯格又出重拳

頭條要聞

石破茂演講被發(fā)現(xiàn)"在手背上打小抄":密密麻麻寫滿文字

頭條要聞

石破茂演講被發(fā)現(xiàn)"在手背上打小抄":密密麻麻寫滿文字

體育要聞

高考數(shù)學(xué)滿分的他,說要成為1/3個(gè)鄧肯

娛樂要聞

秦嵐辛芷蕾聚餐熱聊 結(jié)束直奔魏大勛家

財(cái)經(jīng)要聞

國貨美妝能否脫下“平替”外衣

汽車要聞

余承東親發(fā)預(yù)告:鴻蒙智行首款旅行車享界S9T來了

態(tài)度原創(chuàng)

健康
教育
手機(jī)
游戲
軍事航空

呼吸科專家破解呼吸道九大謠言!

教育要聞

預(yù)警!英國一大學(xué)暫停國際招生,已發(fā)錄取緊急撤回!

手機(jī)要聞

iQOO 13第一,一加13第三,REDMI K80 Pro呢?

恐鬼癥大賣2500萬份 制作人:這都要感謝巫師3!

軍事要聞

烏軍:史上首次 俄軍向機(jī)器人部隊(duì)投降

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 云安县| 饶河县| 花莲市| 南康市| 平舆县| 逊克县| 高阳县| 开鲁县| 临泉县| 互助| 马关县| 蓝山县| 九台市| 泽普县| 文水县| 乐山市| 遂溪县| 六枝特区| 黑河市| 四川省| 措勤县| 额敏县| 渝中区| 松潘县| 乌恰县| 镇巴县| 周宁县| 德化县| 郸城县| 汽车| 永和县| 宜都市| 双鸭山市| 古交市| 石嘴山市| 金门县| 新源县| 台安县| 尼勒克县| 东山县| 永昌县|