機器人能否像人類一樣完成削黃瓜、擦花瓶等精細動作?要回答這個看似簡單的問題,需要深入分析其中的技術挑戰(zhàn)。
以削黃瓜為例,這一操作需要削皮刀始終緊貼黃瓜表面并施加適當?shù)牧Γ瑢θ祟惗暂p而易舉,但對機器人系統(tǒng)卻構成重大挑戰(zhàn)——亞毫米級的誤差就可能導致整個任務失敗。
(來源:arXiv)
當前機器人技術在這一領域面臨雙重困境:
首先,單一視覺模態(tài)的感知精度難以滿足需求,而引入觸覺/力覺等多模態(tài)信息又存在系統(tǒng)整合的根本性難題;其次,現(xiàn)有模仿學習算法雖然通過動作序列預測機制實現(xiàn)了平滑軌跡生成和減少累計誤差,但其開環(huán)控制特性將實際閉環(huán)控制頻率限制在1-2hz,這種滯后性嚴重阻礙了實時觸覺反饋的響應能力。
上海交通大學盧策吾教授團隊與清華大學許華哲助理教授團隊合作,通過多模態(tài)融合、提高閉環(huán)控制頻率與高質(zhì)量數(shù)據(jù)采集的協(xié)同設計,創(chuàng)新性地解決了這一問題。他們的研究使機器人在接觸密集型任務的完成效果提升了 35% 以上,即使在人類干擾下也能完成削黃瓜、擦花瓶等傳統(tǒng)機器人難以完成的精細動作。
他們首先開發(fā)了新型觸覺數(shù)據(jù)采集系統(tǒng) TactAR,通過 AR 技術提供實時處理的觸覺/力反饋。值得關注的是,TactAR 僅需一個成本為500 美元的消費級 VR 頭顯(Meta Quest3),這對于大規(guī)模推廣和應用具有重要意義。
在算法架構上,他們提出的 RDP(Reactive Diffusion Policy)算法融合了快慢雙網(wǎng)絡結構:首次使觸覺/力覺信號直接參與閉環(huán)控制,構建了“語義規(guī)劃-物理響應”的完整力覺控制鏈路。該算法既保留了擴散策略預測未來(例如 1 秒后)復雜動作序列的優(yōu)勢,又在保持動作連續(xù)性的同時實現(xiàn)了接觸豐富任務中的快速響應,通過高頻閉環(huán)修正機制將控制頻率提升至數(shù)十赫茲。
圖丨TactAR 系統(tǒng)和 RDP 算法(來源:arXiv)
實驗數(shù)據(jù)驗證了該系統(tǒng)的突破性性能。在動態(tài)干擾測試中,當人類操作者隨機下降、旋轉黃瓜或?qū)ㄆ恐圃焱话l(fā)擾動時,系統(tǒng)通過高頻率的觸覺/力覺反饋,展現(xiàn)出顯著的實時補償能力,將穩(wěn)定維持操作位置及施加力的精度。這種將動作序列預測與實時反饋調(diào)整相結合的技術路徑,為需要高精度人機協(xié)作的復雜操作場景提供了全新的解決方案范式。
審稿人之一對該研究評價稱:“該設計與經(jīng)典的基于視覺的局部規(guī)劃器+快速阻抗控制器類似。從直觀上看,這種設計非常合理——局部觸覺信息用于生成高頻動作,而全局視覺輸入則用于制定短期未來的粗略規(guī)劃?!绷硪晃粚徃迦藙t認為,該研究對人類示范驅(qū)動的視覺-觸覺策略學習領域作出了重要貢獻。
日前,相關論文以《Reactive Diffusion Policy:面向接觸密集型操作的快慢視覺-觸覺策略學習》(Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation)為題發(fā)表在預印本網(wǎng)站arXiv并入圍機器人頂會 RSS 2025(Robotics: Science and Systems)最佳學生論文提名。
來自上海交通大學的博士生薛寒、助理研究員任杰驥和博士生陳文迪是論文的共同第一作者,上海交通大學盧策吾教授和清華大學許華哲助理教授共同指導本項目。
(來源:https://reactive-diffusion-policy.github.io)
首次實現(xiàn)基于數(shù)據(jù)學習的觸覺/力覺信號閉環(huán)控制
該系統(tǒng)的設計受當前機器人研究領域現(xiàn)狀的啟發(fā):依賴人工調(diào)參的傳統(tǒng)力控算法雖能實現(xiàn)精密操作(如柔性裝配、精密打磨),卻嚴重受限于場景特異性;而主流的視覺模仿學習方法雖具泛化性,但缺乏實時反饋能力,難以應對動態(tài)環(huán)境。
為打破這種范式,研究團隊創(chuàng)新性地提出數(shù)據(jù)驅(qū)動的 RDP 快慢網(wǎng)絡架構,實現(xiàn)了力覺信息從高層規(guī)劃宏觀動作軌跡到低層執(zhí)行高頻閉環(huán)微調(diào)的深度整合。
圖丨 RDP 框架概述(來源:arXiv)
快慢網(wǎng)絡神經(jīng)架構 RDP 本質(zhì)上是模仿人類雙手協(xié)同的操作模式——人類在執(zhí)行任務時并非全程追求極高的精度,而是采用“快慢雙系統(tǒng)”策略:在接觸物體前,大腦會規(guī)劃一個粗略的運動軌跡和未來可能的反饋信號(慢系統(tǒng));一旦產(chǎn)生接觸,小腦和肌肉系統(tǒng)立即接管,通過高頻觸覺反饋實時微調(diào)關節(jié)角度與肌肉張力(快系統(tǒng)),即使不用眼看也能完成精細抓取。
“這種雙層架構的設計既避免了人工參數(shù)調(diào)試繁瑣,又通過端到端學習自動適應了不同任務場景,為通用觸覺/力覺-視覺操作機器人構建奠定基礎。”陳文迪對 DeepTech 表示。
圖丨陳文迪(來源:陳文迪)
RDP 算法將這一原理映射為快慢雙網(wǎng)絡結構,這種架構本質(zhì)上構建了“語義層-物理層”的分層控制:慢網(wǎng)絡處理語義穩(wěn)定的長期規(guī)劃,如“沿黃瓜長度方向移動”;快網(wǎng)絡處理物理敏感的即時調(diào)整,如“接觸力超過閾值時回退 0.5mm”。兩個網(wǎng)絡各司其職又相互補充,最終實現(xiàn)了既有宏觀任務理解力,同時具備微觀物理適應性的機器人操作能力,為復雜接觸任務提供了兼具魯棒性與精度的全新解決方案。
在性能驗證方面,RDP 系統(tǒng)在削皮、擦花瓶和雙臂搬運三項挑戰(zhàn)性任務中分別取得了 0.90、0.87 和 0.70 的平均任務完成效果,相較現(xiàn)有視覺模仿學習方法性能提升超過 35%,在精度、適應性和反應速度等方面均展現(xiàn)出顯著優(yōu)勢。
圖丨TactAR 操作系統(tǒng)概述(來源:arXiv)
這項研究充分體現(xiàn)了機器人領域研究的典型特點——系統(tǒng)層面的持續(xù)積累與硬件迭代的重要性。在系統(tǒng)搭建階段,研究團隊深入解決了硬件交互中的關鍵問題:從脆弱的傳感器保護到延遲補償,這些基礎工作為后續(xù)研究奠定了堅實基礎。更重要的是,這套系統(tǒng)在后期的實驗中展現(xiàn)出巨大價值,不僅確保了高質(zhì)量數(shù)據(jù)采集,更大幅提升了算法開發(fā)效率。
在算法開發(fā)階段,研究團隊意外地發(fā)現(xiàn):原本為視觸覺傳感器設計的策略,無需特殊調(diào)整就能完美適配噪聲特性完全不同的力傳感器。具體而言,RDP 算法在 GelSight Mini 觸覺傳感器、MC-Tac 觸覺陣列以及機器人內(nèi)置關節(jié)扭矩傳感器等多種傳感模態(tài)上均表現(xiàn)出穩(wěn)定的控制性能,這種跨傳感器的通用適配能力充分證明了該算法在硬件兼容性和系統(tǒng)魯棒性方面的突出優(yōu)勢。
(來源:arXiv)
陳文迪指出,“這一反直覺的現(xiàn)象揭示了我們的網(wǎng)絡架構和 RDP 設計具有出色的傳感器泛化能力——力傳感器的高頻噪聲未被特殊處理卻表現(xiàn)出最佳穩(wěn)定性,這與傳統(tǒng)方法(如需要傅里葉變換或獨立處理)形成鮮明對比?!?/p>
這項成果不僅延續(xù)了盧策吾實驗室在力覺-視覺融合策略上的技術路線,更通過與清華大學許華哲團隊在觸覺學習方面的合作,驗證了高頻觸覺/力覺融合在靈巧操作中的潛力,為后續(xù)構建通用多傳感器機器人模型奠定了基礎。
有望用于居家服務與柔性制造場景
隨著觸覺數(shù)據(jù)采集標準化的推進與算法迭代優(yōu)化,該技術有望率先從家庭服務等高頻接觸場景落地應用,并逐步滲透至工業(yè)協(xié)作領域,最終實現(xiàn)“從生活到生產(chǎn)”的全場景覆蓋。
該系統(tǒng)在居家服務場景中展現(xiàn)出顯著優(yōu)勢。研究團隊創(chuàng)新性的數(shù)據(jù)驅(qū)動 RDP 方法突破了傳統(tǒng)局限,泛化的接觸式調(diào)節(jié)能力可以處理多樣化物體操作任務,無需針對每一任務人工設計規(guī)則,為智能居家場景的通用化操作奠定了基礎。
再比如養(yǎng)老護理場景中,對人際交互安全性要求極高,而該系統(tǒng)的快速響應特性可為未來機器人與人類實時互動提供了關鍵支持,有望提升服務可靠性和安全性。
(來源:arXiv)
工業(yè)制造領域,該技術同樣展現(xiàn)出獨特的應用價值。當前傳統(tǒng)工業(yè)制造系統(tǒng)(如柔性制造線和食品加工產(chǎn)線)普遍面臨單一工件適配的生產(chǎn)瓶頸。相比之下,該技術呈現(xiàn)出顯著優(yōu)勢:其數(shù)據(jù)驅(qū)動特性支持快速任務適應能力,同時系統(tǒng)具備的人機協(xié)作友好性為制造業(yè)實現(xiàn)高效人機協(xié)同生產(chǎn)提供了創(chuàng)新解決方案。
(來源:arXiv)
為實現(xiàn)技術的規(guī)?;瘧?,該團隊認為,“提高硬件可靠性與算法性能”的協(xié)同發(fā)展路線非常重要:在部署環(huán)節(jié),需要開發(fā)低成本且可靠的工業(yè)級傳感器,并充分發(fā)揮算法的抗噪能力來補償硬件精度的降低;在模型性能上,還需要進一步提高性能上限以滿足工業(yè)場景的需求。這種策略旨在顯著降低整體成本的同時提高可靠性,加速技術商業(yè)化進程。
在技術指標優(yōu)化方面,他們確立了三個關鍵目標維度:首先將 RDP 系統(tǒng)的絕對成功率提升至 99.9%;其次提高其執(zhí)行速度直至達到熟練工人水平;最后通過開發(fā)更具泛化能力的策略學習方法,減少數(shù)據(jù)需求并提升新任務適應能力,從而降低工業(yè)部署門檻。
未來可能的具體的技術升級將聚焦兩個核心組件:TactAR 數(shù)據(jù)采集裝置將通過一些更好用的觸覺/力覺反饋系統(tǒng)改進提升操作直觀性并進一步提高數(shù)據(jù)質(zhì)量;RDP 控制算法將結合 VLA 框架擴展至多任務場景,并遷移至高自由度靈巧手平臺,以支持更復雜的應用任務。
基于現(xiàn)有研究框架,該團隊正重點攻關“力覺/觸覺驅(qū)動的復雜操作”這一核心方向,著力突破更有效的物理交互數(shù)據(jù)采集方案以及更通用的觸覺/力覺信號學習算法兩大關鍵技術?!斑@些技術突破將為接觸密集型操作等傳統(tǒng)難題提供系統(tǒng)性解決方案,推動機器人操作技術向更高水平發(fā)展?!标愇牡险f。
參考資料:
1.https://arxiv.org/abs/2503.02881
運營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.