近日,一個(gè)「人形機(jī)器人做漢堡」的視頻火爆全網(wǎng)!
這個(gè)具備 [主動(dòng)視覺]、[高精度觸覺] 以及 [高自由度靈巧手] 的人形機(jī)器人,首次實(shí)現(xiàn)了 2.5 分鐘連續(xù)自主控制,從原材料開始,一步步制作出完整漢堡,并遞到你的盤子里。
真正讓機(jī)器人「看得見」、「摸得準(zhǔn)」、「動(dòng)得巧」,未來(lái)廚房可能真的不需要人類了!
https://mp.weixin.qq.com/s/1NSh2smFWit5_fBJFPixtA
靈巧操控是機(jī)器人實(shí)現(xiàn)類人交互的關(guān)鍵能力,尤其在涉及多階段、細(xì)致接觸的任務(wù)中,對(duì)控制精度與響應(yīng)時(shí)機(jī)提出了極高要求。盡管視覺驅(qū)動(dòng)的方法近年來(lái)快速發(fā)展,但在遮擋、光照變化或復(fù)雜接觸環(huán)境下,單一視覺感知常常失效。
觸覺感知為機(jī)器人提供了與環(huán)境交互的直接反饋,在判斷接觸狀態(tài)、施力時(shí)機(jī)等方面扮演著不可替代的角色。然而,當(dāng)前大多數(shù)方法僅將觸覺信息作為靜態(tài)輸入進(jìn)行融合,缺乏真正有效的多模態(tài)聯(lián)合建模機(jī)制。更為關(guān)鍵的是,現(xiàn)有方法往往只關(guān)注當(dāng)前的觸覺狀態(tài),忽視了對(duì)未來(lái)觸覺變化的預(yù)測(cè)。這種短視導(dǎo)致機(jī)器人在連續(xù)操作中難以提前準(zhǔn)備、策略難以穩(wěn)定,特別是在需要時(shí)序感知和力覺判斷的任務(wù)中表現(xiàn)不佳。
盡管已有研究嘗試引入觸覺信息提升策略表現(xiàn),但往往停留在簡(jiǎn)單拼接或輔助通道的層面,缺乏結(jié)構(gòu)性設(shè)計(jì),難以充分發(fā)揮視觸結(jié)合的潛力。
為應(yīng)對(duì)上述挑戰(zhàn),來(lái)自 UC 伯克利、北京大學(xué)、Sharpa 等機(jī)構(gòu)的研究人員提出ViTacFormer,一個(gè)融合視覺與觸覺信息,并引入未來(lái)觸覺預(yù)測(cè)機(jī)制的統(tǒng)一框架,專為提升靈巧操控中的精度、穩(wěn)定性與持續(xù)控制能力而設(shè)計(jì)。
論文作者包括我們熟悉的 UC Berkeley 大牛 Pieter Abbeel 和 Jitendra Malik,以及他們的學(xué)生,北大校友、UC Berkeley 博士生耿浩然 (項(xiàng)目 lead)。
- 論文標(biāo)題:ViTacFormer: Learning Cross-Modal Representation for Visuo-Tactile Dexterous Manipulation
- 論文主頁(yè):https://roboverseorg.github.io/ViTacFormerPage/
- Github 鏈接: https://github.com/RoboVerseOrg/ViTacFormer

https://mp.weixin.qq.com/s/1NSh2smFWit5_fBJFPixtA
這項(xiàng)研究獲得了業(yè)內(nèi)人士的高度認(rèn)可,多位知名學(xué)者和企業(yè)家討論和轉(zhuǎn)發(fā),其中就包括 Transformer 作者之一、GPT-4 作者之一 Lukasz Kaiser。
ViTacFormer 介紹
方法設(shè)計(jì):跨模態(tài)注意力與觸覺預(yù)測(cè)
ViTacFormer 核心思想是構(gòu)建一個(gè)跨模態(tài)表征空間,通過多層跨注意力模塊在策略網(wǎng)絡(luò)的每一步中動(dòng)態(tài)融合視覺信息與觸覺信號(hào),實(shí)現(xiàn)對(duì)接觸語(yǔ)義與空間結(jié)構(gòu)的聯(lián)合建模。
與傳統(tǒng)方法僅依賴當(dāng)前觸覺觀測(cè)不同,ViTacFormer 引入了一個(gè)自回歸觸覺預(yù)測(cè)分支,以強(qiáng)化模型對(duì)未來(lái)接觸狀態(tài)的建模能力。該模塊強(qiáng)制共享表征空間編碼可用于預(yù)測(cè)的觸覺動(dòng)態(tài)特征,使策略不僅「看得見、摸得到」,還能「預(yù)判下一步觸感變化」。
在推理過程中,模型首先基于當(dāng)前觀測(cè)預(yù)測(cè)未來(lái)的觸覺反饋信號(hào),再將其用于指導(dǎo)動(dòng)作生成,從而實(shí)現(xiàn)由 「感知當(dāng)前」 向 「預(yù)測(cè)未來(lái)」 的關(guān)鍵轉(zhuǎn)變。我們通過實(shí)驗(yàn)證明,這種基于未來(lái)觸覺信號(hào)的前瞻式建模方式顯著提升了動(dòng)作策略的穩(wěn)定性與精度。
系統(tǒng)架構(gòu):雙臂靈巧手與視觸覺數(shù)據(jù)采集
ViTacFormer 基于一套雙臂機(jī)器人系統(tǒng)進(jìn)行數(shù)據(jù)采集與策略評(píng)估。系統(tǒng)由兩臺(tái) Realman 機(jī)械臂組成,每條機(jī)械臂搭載一只 SharpaWave 靈巧手(開發(fā)版本),具有 5 指結(jié)構(gòu)和 17 個(gè)自由度,支持高自由度的多指動(dòng)作控制。每個(gè)手指的指尖均配備分辨率為 320×240 的觸覺傳感器,用于實(shí)時(shí)記錄接觸反饋。
視覺感知部分包括兩種視角:手腕安裝的魚眼相機(jī)提供近距離局部觀察以及頂部 ZED Mini 立體攝像頭提供全局場(chǎng)景信息。視覺與觸覺數(shù)據(jù)同步記錄,覆蓋機(jī)器人執(zhí)行過程中的關(guān)鍵狀態(tài)變化。
在專家示范采集過程中,團(tuán)隊(duì)使用一套基于機(jī)械外骨骼手套的遙操作系統(tǒng)。操作者通過手套與靈巧手形成機(jī)械聯(lián)動(dòng),并佩戴 VR 頭顯獲取第一人稱沉浸式反饋。該界面集成了立體頂視圖、雙腕局部視圖與實(shí)時(shí)觸覺圖像疊加,支持自然直觀的操控體驗(yàn),有效提升了接觸密集型任務(wù)的示范質(zhì)量。
實(shí)驗(yàn)評(píng)估:真實(shí)任務(wù)中的操作性能驗(yàn)證
基線比較:在短程靈巧操作任務(wù)中的表現(xiàn)
團(tuán)隊(duì)在四項(xiàng)真實(shí)的短程靈巧操控任務(wù)上評(píng)估了 ViTacFormer 的性能,包括插銷(Peg Insertion)、擰瓶蓋(Cap Twist)、擦花瓶(Vase Wipe)和翻書(Book Flip),每項(xiàng)任務(wù)均具有明確的接觸依賴性與細(xì)粒度控制需求。
實(shí)驗(yàn)設(shè)置中,每個(gè)任務(wù)僅使用 50 條專家軌跡進(jìn)行訓(xùn)練,并在測(cè)試階段獨(dú)立推理 10 次,以評(píng)估模型在有限數(shù)據(jù)條件下的策略學(xué)習(xí)能力與執(zhí)行穩(wěn)定性。
https://mp.weixin.qq.com/s/1NSh2smFWit5_fBJFPixtA
https://mp.weixin.qq.com/s/1NSh2smFWit5_fBJFPixtA
https://mp.weixin.qq.com/s/1NSh2smFWit5_fBJFPixtA
https://mp.weixin.qq.com/s/1NSh2smFWit5_fBJFPixtA
團(tuán)隊(duì)將 ViTacFormer 與四個(gè)當(dāng)前代表性的模仿學(xué)習(xí)基線方法進(jìn)行比較:Diffusion Policy (DP)、HATO、ACT 和 ACTw/T。DP 和 ACT 分別代表當(dāng)前主流的視覺模仿策略,不使用觸覺信息;而 HATO 和 ACTw/T 則在輸入中引入觸覺信號(hào),但均采用直接拼接或簡(jiǎn)單 token 融合的方式,未進(jìn)行深入建模。
相比之下,ViTacFormer 采用跨模態(tài)注意力與自回歸預(yù)測(cè)機(jī)制,充分挖掘視覺與觸覺之間的動(dòng)態(tài)依賴關(guān)系。
從結(jié)果來(lái)看(見上表),ViTacFormer 在所有短程靈巧操控任務(wù)中均顯著優(yōu)于現(xiàn)有方法,相比僅使用視覺或簡(jiǎn)單融合觸覺的模型,成功率穩(wěn)定提升,平均增幅超過 50%。這表明跨模態(tài)注意力與未來(lái)觸覺預(yù)測(cè)在提升操作穩(wěn)定性與精度方面具有關(guān)鍵作用。
長(zhǎng)時(shí)任務(wù)評(píng)估 穩(wěn)定完成 11 階段連續(xù)操作流程
為進(jìn)一步驗(yàn)證 ViTacFormer 在復(fù)雜任務(wù)中的執(zhí)行能力,團(tuán)隊(duì)對(duì)其在一項(xiàng)長(zhǎng)時(shí)靈巧操作任務(wù)中進(jìn)行評(píng)估。
該任務(wù)包括 11 個(gè)連續(xù)子階段,模擬制作漢堡的全過程,涵蓋多指協(xié)調(diào)、精細(xì)接觸與長(zhǎng)時(shí)間持續(xù)控制等挑戰(zhàn),對(duì)策略的穩(wěn)定性與動(dòng)作連貫性提出了極高要求。
https://mp.weixin.qq.com/s/1NSh2smFWit5_fBJFPixtA
實(shí)驗(yàn)結(jié)果顯示,ViTacFormer 能夠穩(wěn)定完成整個(gè)操作序列,持續(xù)操控時(shí)間達(dá)到約 2.5 分鐘,整體成功率超過 80%。在長(zhǎng)時(shí)間、多階段的任務(wù)中,系統(tǒng)表現(xiàn)出良好的動(dòng)作連貫性和接觸控制能力,充分體現(xiàn)了視觸覺融合策略在復(fù)雜任務(wù)執(zhí)行中的優(yōu)勢(shì)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.