CogDDN團隊 投稿
量子位|公眾號QbitAI
讓機器人像人一樣邊看邊理解,來自浙江大學和vivo人工智能實驗室的研究團隊帶來了新進展。
正如視頻所展示的,機器人在復(fù)雜的室內(nèi)環(huán)境中不僅能自主探索,還具備理解指令背后的意圖,靈活調(diào)整行為的強大能力。
而這一能力的核心就來自他們在ACM MM 2025上發(fā)表的新框架—CogDDN。這是首個模擬人類認知機制,將心理學著名的“雙過程理論”應(yīng)用于移動機器人的需求驅(qū)動導航任務(wù)(Demand-driven navigation,DDN)的系統(tǒng)。
論文的共同第一作者為浙江大學博士生黃躍豪和vivo人工智能實驗室算法專家劉亮,通訊作者為浙江大學教授劉勇與研究員呂佳俊。
研究動機
隨著科技的不斷發(fā)展,移動機器人逐漸走進人們的日常生活,成為家庭、醫(yī)院、倉庫中的得力助手。為了讓機器人更加高效地工作,它們不僅需要執(zhí)行指令,還應(yīng)具備理解人類需求的能力——例如,當人們感到饑餓時,機器人能夠主動根據(jù)這一需求(我餓了)去尋找食物,而不是被動等待包含明確目標(例如拿一根香蕉)的指令。
然而,傳統(tǒng)的需求驅(qū)動導航方法依賴大量數(shù)據(jù)訓練,往往只能應(yīng)對“見過的情況”。一旦面對陌生環(huán)境或模糊的指令,機器人便容易陷入困境。
為了解決這一問題,研究團隊開始探索更具通用性的導航方法:讓機器人像人一樣具備“推理能力”,能夠靈活應(yīng)對未知情境,真正理解人類的意圖。
人類在面對需求時,通常不會立即做出決定,而是通過不斷試探和調(diào)整來逐步明確目標。這種靈活的決策過程啟發(fā)了一些研究,通過引入丹尼爾 · 卡尼曼 (Daniel Kahneman)的“雙過程理論”來模擬人類思維:系統(tǒng)1代表快速、直覺式的決策系統(tǒng),系統(tǒng)2代表緩慢但深度推理的系統(tǒng)。
這兩種思維模式的結(jié)合,有望幫助機器人在復(fù)雜環(huán)境中做出更合理的導航?jīng)Q策。
基于“雙過程理論”的需求驅(qū)動導航框架
基于上述動機,團隊提出了一個認知驅(qū)動的雙過程閉環(huán)導航框架——CogDDN。該框架構(gòu)建于視覺語言模型(VLM)之上,具備持續(xù)學習、適應(yīng)和自我改進的能力。該框架將雙過程決策模塊分為啟發(fā)式過程(系統(tǒng)1)分析過程(系統(tǒng)2),以實現(xiàn)快慢系統(tǒng)一體化的設(shè)計,模擬了人類在不同情境下的決策方式。
其中,啟發(fā)式過程依賴已有經(jīng)驗,進行快速、直覺式的高效決策;而分析過程則聚焦于錯誤反思,通過深度推理持續(xù)優(yōu)化策略
在閉環(huán)導航實驗中,分析過程不斷積累經(jīng)驗,構(gòu)建可遷移的知識庫,包含高質(zhì)量的決策信息。這些知識不僅可適應(yīng)不同場景,還可通過微調(diào)遷移至啟發(fā)式過程,為后續(xù)決策提供支持與增強。
在AI2-THOR模擬器上,基于ProcTHOR數(shù)據(jù)集的閉環(huán)評估結(jié)果表明,CogDDN的表現(xiàn)相比當前單視角SOTA方法DDN提高了15%,且與加入深度輸入的InstructNav效果相當。
CogDDN框架介紹
如下圖所示,CodDDN由3部分組成:
- 用于檢測物體的3D機器人感知模塊;
- 用于確定目標物的需求匹配模塊;
- 由分析過程和啟發(fā)式過程組成的雙過程決策模塊。
3D機器人感知模塊
為了提高機器人在室內(nèi)導航中的三維感知能力,團隊采用了當前最先進的單目3D檢測方法——UniMODE。該方法通過單一視角的圖像,精準地估算物體的三維位置,避免了傳統(tǒng)方法對多視角或深度傳感器的依賴。
需求匹配模塊
在需求驅(qū)動導航中,滿足相同人類需求的物體通常具有共同的關(guān)鍵特性。例如,畫作、盆栽和雕塑都適合用來裝飾空間,因為它們可以提升視覺效果,營造所需的環(huán)境氛圍。這種人類需求與物體特性之間的關(guān)系是基于普遍的知識。
大型語言模型(LLM)擅長根據(jù)指令和物體特性進行推理,但當無法精確匹配請求時,LLM可能會推薦一些不太合適的物體。例如,如果用戶要求“需要一個東西來放我的花”,它可能會推薦一個杯子,盡管它并不是最理想的選擇。這種傾向會大大降低模型在選擇最合適物體時的準確性。
為了避免這個問題,團隊采用了有監(jiān)督微調(diào)(SFT)技術(shù)來訓練LLM,使其更好地將物體與用戶需求對齊,從而在無法精確匹配時避免推薦不合適物體。通過微調(diào)后的LLM,系統(tǒng)能夠更精準地處理復(fù)雜指令和物體特性,即使在模糊場景中,也能提供更合理的建議。
雙過程決策
啟發(fā)式過程
在室內(nèi)導航中,傳統(tǒng)系統(tǒng)往往受到處理速度慢和信息冗余的限制,導致在實際應(yīng)用中表現(xiàn)不佳。為了解決這些問題,團隊引入了啟發(fā)式過程,它就像是CogDDN的“直覺”,通過模擬人類的導航方式,并通過不斷練習和積累經(jīng)驗,能夠快速適應(yīng)各種情況,從而提高導航效率。
啟發(fā)式過程包括兩個模塊:ExploreExploit,兩者都依賴思維鏈(CoT)來適應(yīng)新環(huán)境并優(yōu)化導航執(zhí)行。
當無法找到合適目標時,Explore模塊會啟動。此時,系統(tǒng)通過生成探索性動作掃描環(huán)境,尋找可能被忽視的物體或路徑。它根據(jù)當前視角生成場景描述并進行推理,指導探索過程。系統(tǒng)會結(jié)合之前的行動和旋轉(zhuǎn)信息,優(yōu)化探索路徑,避免重復(fù)的探索。
一旦目標物體被找到,Exploit模塊啟動,專注于采取精準的行動實現(xiàn)導航目標。在這一階段,系統(tǒng)利用探索階段積累的經(jīng)驗和知識庫,借助有監(jiān)督微調(diào)(SFT),就像把知識內(nèi)化為直覺,使其更好地應(yīng)對各種情境。系統(tǒng)對環(huán)境進行細致推理,生成最適合的行動,快速而有效地達成目標。
這種雙重決策機制使得CogDDN能夠快速適應(yīng)新環(huán)境,并高效完成復(fù)雜的導航任務(wù),大幅提升了機器人在動態(tài)環(huán)境中的智能決策能力。
分析過程
分析過程是CogDDN的“大腦”,類似于人類的理性思維,幫助系統(tǒng)反思導航中的障礙,并不斷優(yōu)化決策以應(yīng)對復(fù)雜的導航挑戰(zhàn)。
通過在多個數(shù)據(jù)集上廣泛預(yù)訓練,視覺語言模型(VLM)積累了豐富的世界知識,具備強大的推理和洞察能力。這使得分析過程能夠在室內(nèi)導航中進行深入的分析和情境理解,從而得出準確的推論。
在閉環(huán)室內(nèi)導航場景中,當需求匹配和啟發(fā)式過程模塊正常運作時,任何遇到的障礙都會觸發(fā)反思機制。分析過程利用VLM中積累的知識,基于障礙發(fā)生前收集的信息進行分析,包括物體的位置、場景描述、推理和決策。
系統(tǒng)通過這一過程深入分析問題根源,識別錯誤并生成修正后的推理和決策。所得的經(jīng)驗會被整合到知識庫中,使系統(tǒng)能夠從失敗中不斷學習
通過這種迭代學習,CogDDN不斷提升決策能力,使系統(tǒng)在未來的導航任務(wù)中做出更精準、更明智的決策,從而持續(xù)優(yōu)化導航策略。
實驗結(jié)果
團隊在開源仿真器AI2Thor使用Procthor數(shù)據(jù)集進行閉環(huán)實驗,以評估CogDDN的性能。為了驗證有效性,團隊在400個場景中進行了閉環(huán)導航的綜合評估。團隊的評估指標包括導航成功率(NSR)、加權(quán)路徑長度的導航成功率(SPL)和選擇成功率(SSR)。
如表2所示,CogDDN優(yōu)于所有其他僅依賴前向視角相機傳感器輸入的方法。
此外,CogDDN與SOTA方法InstructNav的比較也展示了令人矚目的成果。盡管InstructNav利用深度圖作為額外輸入,CogDDN仍在未見場景和指令中表現(xiàn)出相當?shù)男阅?,證明了其在多種復(fù)雜場景中的適應(yīng)性與高效性。
團隊還進行了消融實驗,驗證了CogDDN各模塊的作用。
實驗結(jié)果表明,移除Exploit模塊后,系統(tǒng)性能顯著下降,突顯了微調(diào)的重要性。
同樣,去除CoT后,系統(tǒng)在復(fù)雜決策中的推理能力大幅減弱,證明了CoT對決策過程的關(guān)鍵作用。
此外,反思機制的消融實驗進一步驗證了CogDDN的持續(xù)學習能力。在每輪500個epoch的訓練中,系統(tǒng)通過反思積累經(jīng)驗并微調(diào)VLM,將其添加到知識庫中。
通過圖7可以看到,SPL顯著提升。該實驗表明,反思機制有效提高了系統(tǒng)在遇到障礙后的表現(xiàn),進一步證明了CogDDN在持續(xù)學習和適應(yīng)新環(huán)境方面的強大能力。
總結(jié)
CogDDN是一款認知驅(qū)動的導航系統(tǒng),具備持續(xù)學習、靈活適應(yīng)與自我優(yōu)化能力,仿佛賦予機器人一顆“思考的大腦”。
受人類注意力機制啟發(fā),CogDDN能精準聚焦任務(wù)相關(guān)的關(guān)鍵物體,簡化環(huán)境信息,從而提升決策效率。系統(tǒng)采用雙過程決策機制:
一方面通過快速、直覺式的啟發(fā)式?jīng)Q策,實現(xiàn)高效響應(yīng);
另一方面依賴深度推理與分析,完成復(fù)雜情境下的判斷。
兩者協(xié)同運行,使機器人在復(fù)雜環(huán)境中也能靈活應(yīng)對。此外,CogDDN能在閉環(huán)過程中持續(xù)積累經(jīng)驗,優(yōu)化策略,并可無縫集成至現(xiàn)有機器人系統(tǒng)中。
其獨特的雙過程能力,使其在需求驅(qū)動導航任務(wù)中表現(xiàn)出色,為智能機器人技術(shù)的發(fā)展奠定了堅實基礎(chǔ)。
[1]論文鏈接:https://arxiv.org/abs/2507.11334
[2]項目主頁:https://yuehaohuang.github.io/CogDDN/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.