當你在快餐店等待一份現制三明治時,是否設想過這樣的場景:如果機器人能夠像人類廚師一樣靈活協調雙臂——一邊煎制培根,一邊涂抹醬料,同時整理餐盒,那么顧客的等待時間很可能大幅縮短。
如今,這一構想正隨著機器人技術的發展而逐漸走向現實。北京航空航天大學助理研究員范肇心團隊與北京人形機器人創新中心合作,為解決并行高效操作難題,提出了一種名為 RoboPARA 的雙機械臂任務規劃框架。
該框架的核心創新在于采用基于大模型的兩階段規劃策略:第一階段通過構建依賴圖生成任務邏輯,并通過檢索增強生成消除語義冗余;第二階段則通過圖重遍歷算法對雙臂的并行調度進行深度優化。這種“雙重優化”機制顯著提升了機械臂的協作效率。
(來源:該團隊)
從應用前景來看,這項技術在需要復雜操作協同的領域展現出廣泛的應用潛力:在服務業可應用于智能售賣廳和智慧廚房(包括烹飪機器人及家務機器人);在工業領域適用于柔性制造生產線和汽車生產車間;在醫療輔助(如手術機器人)、農業自動化、災后救援以及家庭服務等場景也具有重要的應用價值。
經實際驗證,該技術已在包括天工人形機器人、Franka 和 UR5e 在內的多種機器人平臺上完成測試。實驗數據顯示,其工作效率和任務成功率優于現有方法。值得一提的是,為促進學術交流和技術發展,研究團隊即將開源項目代碼和完整數據集。
(來源:該團隊)
日前,相關論文以《RoboPARA:面向多任務的雙臂機器人并行分配重組規劃方法》(RoboPARA: Dual-Arm Robot Planning with Parallel Allocation and Recomposition Across Tasks)為題發表在預印本網站arXiv上 [1]。北京航空航天大學研究生段仕英和北京人形機器人創新中心任沛是共同第一作者,北京航空航天大學范肇心、中國人民大學孫怡帆教授和北京人形機器人創新中心任沛擔任共同通訊作者。
圖丨相關論文(來源:arXiv)
如今,大模型雖已成功應用于活動規劃等任務,但在處理復雜規劃場景時仍面臨顯著瓶頸,其實際能力尚需更全面的驗證。
針對這一挑戰,研究團隊從日常生活場景中獲得關鍵啟發——以早晨起床后的多任務處理為例,人們需要同時協調燒水、洗漱、整理衣物等一系列活動,這些任務有的可以并行執行,有的則存在先后依賴關系,或者需要在等待間隙插入其他任務。
然而,規劃任務本質上具有多解性,團隊研究發現,直接使用大模型進行任務規劃時,由于模型自身的推理能力有限,可能會產生“規劃幻覺”現象。具體表現為:模型可能以高度自信的態度輸出規劃結果,但這些方案卻存在實質性錯誤,例如遺漏關鍵操作步驟或違反物理約束條件。
圖丨RoboPARA 框架(來源:arXiv)
為系統解決大模型在復雜規劃中的固有缺陷,RoboPARA 框架創新性地提出了兩階段處理流程,實現了對傳統規劃范式的突破性改進。
在第一階段的依賴圖規劃候選生成中,系統通過構建有向無環圖(DAG,Directed Acyclic Graph)精確建模任務間的拓撲關系,智能識別并消除冗余操作節點。
范肇心對 DeepTech 舉例說道:“在廚房場景下,RoboPARA 如同一位技藝精湛的主廚,面對多份訂單時能統籌規劃不同套餐的切配、烹制和裝盤流程,使機器人獲得像人類那樣的全局調度能力。”
圖丨范肇心老師和博士同學(來源:范肇心)
在第二階段的圖重遍歷優化中,算法通過對 DAG 的智能遍歷,在確保任務邏輯完整性的前提下,實現雙臂操作并行度的最大化。以工廠裝配線為例,該技術可讓雙機械臂像配合默契的工人搭檔,同步執行差異化操作從而顯著提升產線效率。“通過這種方式,能夠有效避免大模型幻覺帶來的問題。”范肇心表示。
為了驗證 RoboPARA 的有效性,該團隊開發了首個專門設計用于評估雙臂任務并行性的數據集——X-DAPT(Cross-Scenario Dual-Arm Parallel Task)數據集。范肇心表示:“為更好地應對工業界應用的復雜情況,我們在制作數據集時充分考慮了商業場景的需求。”
與現有實驗室導向數據集不同的是,X-DAPT 包含 1000 余個任務模塊,覆蓋了從廚房烹飪到農業溫室管理,從辦公室服務到工廠組裝等 10 類核心場景,每個場景又細分為簡單、中等、困難三級難度梯度。
圖丨X-DAPT 數據集的統計評估(來源:arXiv)
大量實驗表明,RoboPARA 在各項指標上均顯著優于現有方法。在復雜任務組合中,它實現了更高的效率和可靠性。與傳統方法相比,RoboPARA 的平均并行協作步驟超過 4.5 倍,執行時間減少 30% 至 50%。在具有挑戰性的任務中,其成功率比其他方法的平均水平高出 34%,展現出高穩定性和適應性。
雖然當前研究在數據集構建和算法設計中尚未系統性地考慮動態環境因素,但 RoboPARA 框架已展現出初步的動態適應能力。這種能力主要源于算法設計之初就集成的檢索增強機制,其多模態輸入特性(不僅包含文本指令,還整合了視覺感知數據)為動態響應提供了基礎支撐。
以制作熱狗三明治套餐為例,當接收到文字指令后,機器人并非立即執行操作,而是會先通過視覺系統捕捉環境狀態,識別食材和工具的實時空間分布,評估資源完備性,繼而生成適應性規劃方案。
這種“感知-理解-決策”的閉環機制,使得系統在面對新任務場景(如不同套餐訂單)時,能夠通過環境感知、記憶檢索和大模型推理的協同作用,實現一定程度的自主決策和動態調整。
(來源:arXiv)
需要說明的是,當前系統的動態能力主要體現在任務級適應(如新訂單處理)而非操作級適應(如動態物體抓取),這也構成了未來研究的重要拓展方向。
然而,不可忽視的是,該框架在任務規劃過程中仍面臨死鎖問題的嚴峻挑戰。從技術實現層面來看,死鎖現象源于 DAG 遍歷時的循環依賴:當大模型生成的規劃方案在任務圖上形成閉環時,系統會陷入有限幾個任務的無限循環而無法推進。
范肇心坦言:“在研發初期,我們嘗試了多種方法引導大模型生成無死鎖的規劃圖,但在當前版本中仍未完全解決這個問題。”為此,團隊引入傳統規劃方法作為補充機制來破解死鎖問題。
這種兩階段的折中方案雖然保證了系統的基本可用性,但從長遠來看,研究人員希望未來能夠發展出端到端的規劃范式——要么完全擺脫對規劃圖的依賴,要么實現圖的智能生成與死鎖預防,從而消除對傳統解鎖方法的依賴。
基于此,研究團隊正著眼于以下三個關鍵發展方向:
首先是架構革新,致力于構建更簡潔的端到端規劃系統,逐步降低框架復雜度。
其次是模型輕量化,在保持規劃性能的前提下,探索如何將算法部署到包括北航團隊開發的 TinyLLaVA、阿里千問等 7B 參數以下的輕量級基座,以增強端側適用性。
最后是深入到控制層面,推動研究從任務級規劃向動作級控制延伸,實現“視覺-語言-動作”的深度融合。“這三個方向不僅具有學術價值,也有望推動雙臂機器人在工業界的落地應用。”范肇心說。
參考資料:
1.https://arxiv.org/abs/2506.06683
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.