機器人需求驅(qū)動導航新SOTA，成功率提升15%！浙大&vivo聯(lián)手打造

2025-07-23 15:33:07　來源: 量子位

北京舉報

分享至

CogDDN團隊投稿
量子位|公眾號QbitAI

讓機器人像人一樣邊看邊理解，來自浙江大學和vivo人工智能實驗室的研究團隊帶來了新進展。

正如視頻所展示的，機器人在復(fù)雜的室內(nèi)環(huán)境中不僅能自主探索，還具備理解指令背后的意圖，靈活調(diào)整行為的強大能力。

而這一能力的核心就來自他們在ACM MM 2025上發(fā)表的新框架—CogDDN。這是首個模擬人類認知機制，將心理學著名的“雙過程理論”應(yīng)用于移動機器人的需求驅(qū)動導航任務(wù)(Demand-driven navigation,DDN)的系統(tǒng)。

論文的共同第一作者為浙江大學博士生黃躍豪和vivo人工智能實驗室算法專家劉亮，通訊作者為浙江大學教授劉勇與研究員呂佳俊。

研究動機

隨著科技的不斷發(fā)展，移動機器人逐漸走進人們的日常生活，成為家庭、醫(yī)院、倉庫中的得力助手。為了讓機器人更加高效地工作，它們不僅需要執(zhí)行指令，還應(yīng)具備理解人類需求的能力——例如，當人們感到饑餓時，機器人能夠主動根據(jù)這一需求（我餓了）去尋找食物，而不是被動等待包含明確目標（例如拿一根香蕉）的指令。

然而，傳統(tǒng)的需求驅(qū)動導航方法依賴大量數(shù)據(jù)訓練，往往只能應(yīng)對“見過的情況”。一旦面對陌生環(huán)境或模糊的指令，機器人便容易陷入困境。

為了解決這一問題，研究團隊開始探索更具通用性的導航方法：讓機器人像人一樣具備“推理能力”，能夠靈活應(yīng)對未知情境，真正理解人類的意圖。

人類在面對需求時，通常不會立即做出決定，而是通過不斷試探和調(diào)整來逐步明確目標。這種靈活的決策過程啟發(fā)了一些研究，通過引入丹尼爾 · 卡尼曼 (Daniel Kahneman)的“雙過程理論”來模擬人類思維：系統(tǒng)1代表快速、直覺式的決策系統(tǒng)，系統(tǒng)2代表緩慢但深度推理的系統(tǒng)。

這兩種思維模式的結(jié)合，有望幫助機器人在復(fù)雜環(huán)境中做出更合理的導航?jīng)Q策。

基于“雙過程理論”的需求驅(qū)動導航框架

基于上述動機，團隊提出了一個認知驅(qū)動的雙過程閉環(huán)導航框架——CogDDN。該框架構(gòu)建于視覺語言模型（VLM）之上，具備持續(xù)學習、適應(yīng)和自我改進的能力。該框架將雙過程決策模塊分為啟發(fā)式過程（系統(tǒng)1）分析過程（系統(tǒng)2），以實現(xiàn)快慢系統(tǒng)一體化的設(shè)計，模擬了人類在不同情境下的決策方式。

其中，啟發(fā)式過程依賴已有經(jīng)驗，進行快速、直覺式的高效決策；而分析過程則聚焦于錯誤反思，通過深度推理持續(xù)優(yōu)化策略

在閉環(huán)導航實驗中，分析過程不斷積累經(jīng)驗，構(gòu)建可遷移的知識庫，包含高質(zhì)量的決策信息。這些知識不僅可適應(yīng)不同場景，還可通過微調(diào)遷移至啟發(fā)式過程，為后續(xù)決策提供支持與增強。

在AI2-THOR模擬器上，基于ProcTHOR數(shù)據(jù)集的閉環(huán)評估結(jié)果表明，CogDDN的表現(xiàn)相比當前單視角SOTA方法DDN提高了15%，且與加入深度輸入的InstructNav效果相當。

CogDDN框架介紹

如下圖所示，CodDDN由3部分組成：

用于檢測物體的3D機器人感知模塊；
用于確定目標物的需求匹配模塊；
由分析過程和啟發(fā)式過程組成的雙過程決策模塊。

3D機器人感知模塊

為了提高機器人在室內(nèi)導航中的三維感知能力，團隊采用了當前最先進的單目3D檢測方法——UniMODE。該方法通過單一視角的圖像，精準地估算物體的三維位置，避免了傳統(tǒng)方法對多視角或深度傳感器的依賴。

需求匹配模塊

在需求驅(qū)動導航中，滿足相同人類需求的物體通常具有共同的關(guān)鍵特性。例如，畫作、盆栽和雕塑都適合用來裝飾空間，因為它們可以提升視覺效果，營造所需的環(huán)境氛圍。這種人類需求與物體特性之間的關(guān)系是基于普遍的知識。

大型語言模型（LLM）擅長根據(jù)指令和物體特性進行推理，但當無法精確匹配請求時，LLM可能會推薦一些不太合適的物體。例如，如果用戶要求“需要一個東西來放我的花”，它可能會推薦一個杯子，盡管它并不是最理想的選擇。這種傾向會大大降低模型在選擇最合適物體時的準確性。

為了避免這個問題，團隊采用了有監(jiān)督微調(diào)（SFT）技術(shù)來訓練LLM，使其更好地將物體與用戶需求對齊，從而在無法精確匹配時避免推薦不合適物體。通過微調(diào)后的LLM，系統(tǒng)能夠更精準地處理復(fù)雜指令和物體特性，即使在模糊場景中，也能提供更合理的建議。

雙過程決策

啟發(fā)式過程

在室內(nèi)導航中，傳統(tǒng)系統(tǒng)往往受到處理速度慢和信息冗余的限制，導致在實際應(yīng)用中表現(xiàn)不佳。為了解決這些問題，團隊引入了啟發(fā)式過程，它就像是CogDDN的“直覺”，通過模擬人類的導航方式，并通過不斷練習和積累經(jīng)驗，能夠快速適應(yīng)各種情況，從而提高導航效率。

啟發(fā)式過程包括兩個模塊：ExploreExploit，兩者都依賴思維鏈（CoT）來適應(yīng)新環(huán)境并優(yōu)化導航執(zhí)行。

當無法找到合適目標時，Explore模塊會啟動。此時，系統(tǒng)通過生成探索性動作掃描環(huán)境，尋找可能被忽視的物體或路徑。它根據(jù)當前視角生成場景描述并進行推理，指導探索過程。系統(tǒng)會結(jié)合之前的行動和旋轉(zhuǎn)信息，優(yōu)化探索路徑，避免重復(fù)的探索。

一旦目標物體被找到，Exploit模塊啟動，專注于采取精準的行動實現(xiàn)導航目標。在這一階段，系統(tǒng)利用探索階段積累的經(jīng)驗和知識庫，借助有監(jiān)督微調(diào)（SFT），就像把知識內(nèi)化為直覺，使其更好地應(yīng)對各種情境。系統(tǒng)對環(huán)境進行細致推理，生成最適合的行動，快速而有效地達成目標。

這種雙重決策機制使得CogDDN能夠快速適應(yīng)新環(huán)境，并高效完成復(fù)雜的導航任務(wù)，大幅提升了機器人在動態(tài)環(huán)境中的智能決策能力。

分析過程

分析過程是CogDDN的“大腦”，類似于人類的理性思維，幫助系統(tǒng)反思導航中的障礙，并不斷優(yōu)化決策以應(yīng)對復(fù)雜的導航挑戰(zhàn)。

通過在多個數(shù)據(jù)集上廣泛預(yù)訓練，視覺語言模型（VLM）積累了豐富的世界知識，具備強大的推理和洞察能力。這使得分析過程能夠在室內(nèi)導航中進行深入的分析和情境理解，從而得出準確的推論。

在閉環(huán)室內(nèi)導航場景中，當需求匹配和啟發(fā)式過程模塊正常運作時，任何遇到的障礙都會觸發(fā)反思機制。分析過程利用VLM中積累的知識，基于障礙發(fā)生前收集的信息進行分析，包括物體的位置、場景描述、推理和決策。

系統(tǒng)通過這一過程深入分析問題根源，識別錯誤并生成修正后的推理和決策。所得的經(jīng)驗會被整合到知識庫中，使系統(tǒng)能夠從失敗中不斷學習

通過這種迭代學習，CogDDN不斷提升決策能力，使系統(tǒng)在未來的導航任務(wù)中做出更精準、更明智的決策，從而持續(xù)優(yōu)化導航策略。

實驗結(jié)果

團隊在開源仿真器AI2Thor使用Procthor數(shù)據(jù)集進行閉環(huán)實驗，以評估CogDDN的性能。為了驗證有效性，團隊在400個場景中進行了閉環(huán)導航的綜合評估。團隊的評估指標包括導航成功率（NSR）、加權(quán)路徑長度的導航成功率（SPL）和選擇成功率（SSR）。

如表2所示，CogDDN優(yōu)于所有其他僅依賴前向視角相機傳感器輸入的方法。

此外，CogDDN與SOTA方法InstructNav的比較也展示了令人矚目的成果。盡管InstructNav利用深度圖作為額外輸入，CogDDN仍在未見場景和指令中表現(xiàn)出相當?shù)男阅?，證明了其在多種復(fù)雜場景中的適應(yīng)性與高效性。

團隊還進行了消融實驗，驗證了CogDDN各模塊的作用。

實驗結(jié)果表明，移除Exploit模塊后，系統(tǒng)性能顯著下降，突顯了微調(diào)的重要性。

同樣，去除CoT后，系統(tǒng)在復(fù)雜決策中的推理能力大幅減弱，證明了CoT對決策過程的關(guān)鍵作用。

此外，反思機制的消融實驗進一步驗證了CogDDN的持續(xù)學習能力。在每輪500個epoch的訓練中，系統(tǒng)通過反思積累經(jīng)驗并微調(diào)VLM，將其添加到知識庫中。

通過圖7可以看到，SPL顯著提升。該實驗表明，反思機制有效提高了系統(tǒng)在遇到障礙后的表現(xiàn)，進一步證明了CogDDN在持續(xù)學習和適應(yīng)新環(huán)境方面的強大能力。

總結(jié)

CogDDN是一款認知驅(qū)動的導航系統(tǒng)，具備持續(xù)學習、靈活適應(yīng)與自我優(yōu)化能力，仿佛賦予機器人一顆“思考的大腦”。

受人類注意力機制啟發(fā)，CogDDN能精準聚焦任務(wù)相關(guān)的關(guān)鍵物體，簡化環(huán)境信息，從而提升決策效率。系統(tǒng)采用雙過程決策機制：

一方面通過快速、直覺式的啟發(fā)式?jīng)Q策，實現(xiàn)高效響應(yīng)；

另一方面依賴深度推理與分析，完成復(fù)雜情境下的判斷。

兩者協(xié)同運行，使機器人在復(fù)雜環(huán)境中也能靈活應(yīng)對。此外，CogDDN能在閉環(huán)過程中持續(xù)積累經(jīng)驗，優(yōu)化策略，并可無縫集成至現(xiàn)有機器人系統(tǒng)中。

其獨特的雙過程能力，使其在需求驅(qū)動導航任務(wù)中表現(xiàn)出色，為智能機器人技術(shù)的發(fā)展奠定了堅實基礎(chǔ)。

[1]論文鏈接：https://arxiv.org/abs/2507.11334
[2]項目主頁：https://yuehaohuang.github.io/CogDDN/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.