本文一作彭道杰,香港科技大學廣州在讀博士生;共同一作曹嘉航,北京人形機器人創新中心實習生;共同一作張強香港科技大學廣州在讀博士生,北京人形機器人創新中心學術委員會主任;通訊導師馬駿,香港科技大學廣州&香港科技大學助理教授。
在復雜的開放環境中,讓足式機器人像人類一樣自主完成「先跑到椅子旁,再快速接近行人」這類長程多目標任務,一直是 robotics 領域的棘手難題。傳統方法要么局限于固定目標類別,要么難以應對運動中的視覺抖動、目標丟失等實時挑戰,導致機器人在真實場景中常常「迷路」或「認錯對象」。
香港科技大學廣州聯合北京人形創新中心重磅推出的 LOVON(Legged Open-Vocabulary Object Navigator)框架,為這一難題帶來了創新性的解決方案。它首次將大語言模型(LLMs)的任務規劃能力、開放詞匯視覺檢測的泛化能力,以及精準的語言 - 運動映射模型融合在一起,讓足式機器人在動態、非結構化環境中也能高效完成長程目標導航,實現了足式機器人在開放世界中對動態目標的長視野精準追蹤,兼容 Unitree Go2、B2、H1-2 等主流平臺,用「即插即用」的特性打破了傳統機器人導航的場景限制。
- 論文:《LOVON: Legged Open-Vocabulary Object Navigator》
- LOVON 論文地址: https://arxiv.org/pdf/2507.06747
- 項目地址:https://daojiepeng.github.io/LOVON/
- 代碼地址:https://github.com/DaojiePENG/LOVON
- 視頻地址:https://www.bilibili.com/video/BV1xh3ezJEJn/
攻克開放世界導航難題,LOVON 強勢登場
開放世界環境中的目標導航,對于機器人系統而言是一項艱巨且普遍存在的挑戰。尤其是執行長視野任務時,不僅需要機器人具備開放世界物體檢測能力,還需進行高級任務規劃。傳統方法往往難以有效整合這些關鍵組件,這極大地限制了它們應對復雜、長距離導航任務的能力。
LOVON 框架應運而生,它巧妙地將大型語言模型用于分層任務規劃,并與開放詞匯視覺檢測模型深度融合,專為在動態、非結構化環境中實現高效的長距離目標導航而打造。面對真實世界中諸如視覺抖動、復雜環境以及目標臨時丟失等棘手問題,LOVON 設計了專門的解決方案,例如用于視覺穩定的拉普拉斯方差濾波技術。同時,為機器人開發了一套功能性執行邏輯,確保 LOVON 在自主導航、任務適應以及穩健完成任務等方面具備強大的能力。
三大核心模塊協同,構建智能導航閉環
LOVON 創新性地整合了三大核心模塊,打通了「語言 - 視覺 - 運動」的閉環。
- LLM 任務規劃器:如同為機器人賦予了人類般的思考能力,能夠將長視野任務進行拆解。比如,它可以把「先跑向椅子,再快速靠近行人」這樣的復雜指令,細致地分解為一系列連續的子任務,并根據實際情況動態調整執行順序,讓機器人能夠有條不紊地完成復雜任務。
- 開放詞匯視覺檢測:突破了傳統預定義類別的限制,使機器人能夠識別從常見的「背包」「盆栽」到「汽車」「寵物」等各類豐富多樣的目標。這一特性讓機器人能夠輕松適配日常生活中的各種場景,無論是在室內環境中尋找特定物品,還是在戶外環境中識別動態目標,都能應對自如。
- 語言 - 運動模型(L2MM):該模塊能夠將文字指令與視覺反饋直接轉化為精確的運動向量,從而精準地控制機器人的速度和方向。這意味著機器人可以根據接收到的指令,迅速做出反應,實現「說走就走,說停就停」的精準運動控制,大大提高了任務執行的效率和準確性。
抗干擾視覺處理,解決畫面抖動難題
足式機器人在運動過程中,機身的抖動常常導致獲取的視覺畫面模糊不清,這使得目標檢測頻繁失效,成為影響機器人導航性能的一大障礙。為了解決這一「看不清楚」的老大難問題,LOVON 提出了基于拉普拉斯方差濾波技術。通過對圖像清晰度特征進行深入分析,該技術能夠自動識別并過濾掉模糊的圖像幀,同時用最近的清晰幀進行替換。再配合滑動平均濾波,有效地將機器人有效檢測幀的比例提升了 25%。
這一技術的應用,使得機器人在奔跑、上下樓梯等運動狀態下,依然能夠穩定地鎖定目標,為后續的導航決策提供可靠的視覺信息。
自適應執行邏輯,賦予機器人「隨機應變」能力
在復雜多變的真實世界中,機器人可能會面臨各種突發情況,如目標突然丟失、指令發生更新或者受到外力干擾等。LOVON 的自適應執行邏輯為機器人應對這些情況提供了有力支持。當目標丟失時,機器人會自動切換至「搜索模式」,通過左右旋轉掃描周圍環境,迅速重新定位目標;當接收到新的指令時,能夠無縫銜接并執行新任務,確保任務的連貫性;即便在受到外力碰撞等干擾時,也能快速重新規劃路徑,繼續朝著目標前進。
這種「隨機應變」的能力,讓機器人在真實世界的復雜場景中能夠保持穩定的任務執行能力,極大地提升了其適應性和可靠性。
從仿真到真實世界:多項指標刷新紀錄
經過嚴格測試,LOVON 在仿真與真實環境中均展現出超越傳統方法的性能:
GymUnreal 仿真環境:在停車場、城市街道、雪地村莊等多種復雜仿真場景中,LOVON 展現出了令人矚目的性能。其成功率(SR)高達 1.00,大幅超越了傳統方法,例如EVT的 0.94。而且,LOVON 在訓練效率上也具有顯著優勢,僅需 1.5 小時即可完成訓練,相比同類最優模型 TrackVLA 的 360 小時,效率提升了驚人的 240 倍。這表明 LOVON 不僅在任務執行的準確性上表現出色,還能在更短的時間內完成模型訓練,為實際應用節省了大量的時間和資源。
真實世界:在 Unitree Go2、B2、H1-2 等不同足式機器人上,LOVON 實現了四大突破:
- 開放世界適配:它能夠輕松識別從大型汽車到小型背包等各類大小不一、形態各異的目標,在完全陌生的環境中也能快速適應并執行任務,體現出了卓越的開放世界適配能力;
- 多目標長程追蹤:在多目標長視野追蹤任務中,LOVON 能夠按照指令依次完成「找椅子→找行人→找背包」等復雜任務,整個過程流暢無中斷,展現出了出色的任務規劃和執行能力;
- 動態環境魯棒性:在動態跟蹤場景中,無論是在平坦道路上,還是在螺旋樓梯、雜草叢等復雜地形中,LOVON 都能穩定地跟隨移動目標,例如在遛狗場景中準確跟隨移動的人和寵物;
- 抗干擾能力:即便目標位置發生移動或者機器人自身受到碰撞等干擾,LOVON 依然能夠快速重新鎖定目標并繼續完成任務,彰顯了其強大的抗干擾能力。
更為重要的是,LOVON 具備出色的「即插即用」特性,無需進行復雜的定制化改造,即可輕松部署于 Unitree Go2、B2、H1 - 2 等多種主流足式機器人平臺,為家庭服務、工業巡檢、野外科研等多個領域的實際應用提供了堅實的技術支撐。
推動足式機器人應用變革,開啟智能服務新篇章
LOVON 框架的出現,猶如為足式機器人導航領域注入了一股強大的創新力量。它不僅填補了足式機器人開放詞匯長視野導航的技術空白,更通過「通用框架 + 輕量化部署」的創新設計理念,為先進機器人技術從實驗室走向廣泛實際應用搭建了一座堅實的橋梁。
隨著 LOVON 的不斷推廣和應用,我們有理由相信,足式機器人將在更多領域發揮重要作用,為人們的生活和工作帶來更多便利和創新。無論是在智能家居環境中協助人們完成日常任務,還是在工業生產中實現高效的巡檢和操作,亦或是在野外科研探索中提供可靠的支持,LOVON 都有望成為推動足式機器人應用變革的關鍵技術,開啟智能服務的嶄新篇章。
想了解更多關于 LOVON 的詳細信息,可訪問 LOVON 項目主頁:https://daojiepeng.github.io/LOVON/ ,一同探索足式機器人導航的未來新趨勢。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.