在機器人模仿學習領域,一項突破性的創(chuàng)新正在改變我們評估機器人能力的方式。來自AgiBot、上海交通大學和香港中文大學多媒體實驗室的研究團隊于2025年5月14日在arXiv上發(fā)布了名為"ENERVERSE-AC: Envisioning Embodied Environments with Action Condition"的研究論文,提出了一種全新的動作條件世界模型,這一模型能夠根據(jù)機器人的預測動作生成未來的視覺觀察結果,從而使機器人仿真變得既真實又可控。
想象一下,如果你想測試一個新開發(fā)的機器人是否能成功抓取一個物體,傳統(tǒng)方法需要你擁有實體機器人或構建復雜的3D模擬環(huán)境,這不僅昂貴,而且耗時。ENERVERSE-AC(簡稱EVAC)則提供了一種全新的解決方案:它就像一個"數(shù)字孿生"環(huán)境,可以在虛擬世界中準確地模擬機器人與環(huán)境的交互,讓我們無需實體設備就能評估機器人的表現(xiàn)。
這項研究的主要貢獻在于,研究團隊不僅開發(fā)了一個能夠生成視頻的世界模型,更重要的是,這個模型可以根據(jù)機器人的動作實時調整生成的視頻內(nèi)容。就像玩電子游戲時,游戲會根據(jù)你按下的按鍵改變畫面一樣,EVAC會根據(jù)機器人的動作指令改變生成的視覺場景。
論文的主要作者江宇欣、陳勝聰和黃思遠,在資深研究員陳禮良的帶領下,基于前期的EnerVerse架構,為這一模型增加了多層動作條件注入機制和射線圖編碼,使其能夠生成多視角圖像,同時還通過收集更多樣化的失敗軌跡來提升模型的泛化能力。
那么,EVAC具體有什么用呢?首先,它可以作為"數(shù)據(jù)引擎",通過對有限的人類收集軌跡進行分割、增強和重新組合,生成豐富多樣的訓練數(shù)據(jù)集;其次,它可以作為機器人策略的"評估器",生成基于動作條件的視頻觀察結果,讓研究人員無需依賴實體機器人就能迭代測試機器人策略。這大大降低了開發(fā)成本,同時保持了高度的評估保真度。
在本文中,我們將深入淺出地解析EVAC的工作原理、技術創(chuàng)新和實際應用價值,讓你在不接觸專業(yè)術語的情況下,也能理解這項面向未來的機器人仿真技術。
一、打造機器人的"數(shù)字沙盒":研究背景與挑戰(zhàn)
機器人學習就像孩子學習一樣,需要不斷嘗試、失敗和改進。想象一下,當父母教孩子騎自行車時,孩子需要反復練習才能掌握平衡。同樣地,機器人需要通過大量的實踐來學習完成任務。但與孩子學習相比,機器人學習面臨一個大問題:每次"練習"都需要使用實體機器人或復雜的仿真環(huán)境,這既昂貴又耗時。
近年來,機器人模仿學習已經(jīng)從解決靜態(tài)環(huán)境中的簡單任務,發(fā)展到處理復雜多變的交互場景。例如,機器人不再僅僅學習如何將物體從A點移動到B點,而是開始學習如何在廚房環(huán)境中烹飪食物、如何整理混亂的桌面,甚至如何與人類協(xié)作完成復雜任務。這種進步令人振奮,但同時也帶來了巨大挑戰(zhàn):如何有效評估這些復雜任務中的機器人表現(xiàn)?
傳統(tǒng)的人工智能領域,如計算機視覺或自然語言處理,可以使用靜態(tài)數(shù)據(jù)集進行評估。例如,一個圖像識別模型可以在大量圖片上測試其準確率,而無需與環(huán)境實時交互。但機器人操作本質上是交互性的,機器人需要根據(jù)環(huán)境變化實時調整行動。這就像測試一個廚師的烹飪技能,不能只看他的食譜,而是要觀察他如何根據(jù)食材狀態(tài)、火候變化實時調整烹飪手法。
隨著任務多樣性的增加,直接在實體機器人上評估或創(chuàng)建大規(guī)模3D仿真環(huán)境變得越來越困難。想象你要測試一個機器人在100種不同廚房場景中的表現(xiàn),這意味著你需要構建100個不同的廚房環(huán)境,或者在實體機器人上進行100次不同的測試設置——這在成本和時間上都是不可行的。
鑒于這些挑戰(zhàn),研究者們開始探索使用視頻生成模型作為世界模擬器的可能性。這些模型能讓機器人通過學習的視覺動態(tài)觀察和交互虛擬世界,避免了對物理仿真的依賴。就像電影特效一樣,這些模型可以創(chuàng)建逼真的視覺場景,讓機器人"身臨其境"。
然而,現(xiàn)有的世界建模技術主要集中于從語言指令生成視頻,然后基于生成的視頻預測動作。這就像給機器人看一部教學視頻,然后讓它模仿視頻中的動作。但這種方法無法創(chuàng)建真正的世界模擬器,因為它們?nèi)鄙賹C器人動作的反饋——真正的世界模擬器應該能夠根據(jù)機器人的動作來模擬環(huán)境動態(tài),就像現(xiàn)實世界會對我們的行為做出反應一樣。
這正是ENERVERSE-AC(EVAC)試圖解決的核心問題:如何創(chuàng)建一個能夠根據(jù)機器人動作實時生成視覺觀察結果的模型,使機器人訓練和評估變得更加高效、經(jīng)濟且可擴展?
二、EVAC的技術核心:動作條件視頻生成
EVAC的核心思想是創(chuàng)建一個"動作條件"的世界模型,就像一個對話系統(tǒng)根據(jù)用戶輸入生成回應一樣,EVAC根據(jù)機器人的動作生成相應的視覺場景。想象一下,如果你告訴朋友"我要拿起桌上的杯子",然后描述你的動作,你的朋友能在腦海中想象出你拿杯子的樣子。EVAC就像這樣的朋友,能根據(jù)機器人描述的動作"想象"出相應的視覺場景。
從技術上看,EVAC建立在UNet視頻生成模型的基礎上,這是一種擴散模型(Diffusion Model)。如果把視頻畫面比作一幅油畫,擴散模型的工作方式就像是先把畫布上的顏料完全攪亂,然后一步步地恢復出清晰的畫面。EVAC的創(chuàng)新之處在于,它在這個過程中加入了"動作條件",也就是說,畫面的恢復過程會受到預設動作序列的指導。
具體來說,當EVAC接收到一組RGB視頻幀和相應的機器人動作軌跡時,它首先通過編碼器將視頻轉換為潛在表示(latent representation),這就像將復雜的畫面提煉為簡化的草圖。然后,使用擴散模型來預測未來的潛在表示,這個過程受到機器人動作軌跡的條件引導。最后,將預測的潛在表示轉換回可視的視頻幀。
為了有效地將動作信息融入視頻生成過程,研究團隊設計了兩種創(chuàng)新的條件注入機制:
首先是"空間感知姿態(tài)注入"。想象你在用手機拍攝視頻時,手機屏幕上會疊加顯示一些信息,比如拍攝時間、位置等。類似地,EVAC將機器人末端執(zhí)行器(就像機器人的"手")的6D位姿信息(位置和方向)投影到圖像上,形成"動作地圖"。這些動作地圖使模型能夠準確地理解機器人在空間中的位置和方向,從而生成相應的視覺場景。
例如,當機器人的手向左移動時,動作地圖會顯示一個指向左側的箭頭;當機器人的夾爪閉合時,動作地圖會用顏色深淺來表示夾爪的開閉程度。這些視覺提示讓模型能夠直觀地理解機器人的動作意圖。
其次是"增量動作注意力模塊"。如果說空間感知姿態(tài)注入關注的是"機器人在哪里",那么增量動作注意力模塊則關注"機器人如何移動"。它計算連續(xù)幀之間末端執(zhí)行器位置和方向的變化,捕捉動作的速度和加速度信息。這些變化通過線性投影器編碼成固定長度的潛在表示,然后通過交叉注意力機制注入到UNet階段。
這就像我們觀察舞者的表演,不僅要看舞者站在哪個位置,還要關注舞者是急速旋轉還是緩慢伸展,這些動作的節(jié)奏和力度同樣重要。通過捕捉這些時間變化,比如速度和加速度,模塊增強了模型對運動動態(tài)的物理理解,使其能夠生成更真實、更多樣的視頻輸出。
三、多視角條件注入:立體感知機器人環(huán)境
在真實的機器人操作中,多角度的視覺輸入對于準確判斷物體位置和完成任務至關重要。想象一下廚師在廚房工作:他不僅需要看到正前方的案板,還需要通過余光察覺周圍的爐灶和食材。同樣,機器人也需要多角度的視覺輸入來全面感知環(huán)境。
EVAC擴展了世界模型,支持多視角視頻生成。想象一個攝影棚,多個攝像機從不同角度拍攝同一個場景,每個攝像機都能捕捉到場景的不同方面。在EVAC中,多視角特征通過空間交叉注意力模塊進行交互,就像多個攝影師相互交流所看到的內(nèi)容,形成對場景的完整理解。
但EVAC面臨一個特殊挑戰(zhàn):動態(tài)的腕部攝像頭。在機器人系統(tǒng)中,通常會有固定的頭部攝像頭和跟隨機械臂移動的腕部攝像頭。固定攝像頭就像餐廳的監(jiān)控攝像頭,始終從一個固定位置觀察全局;而腕部攝像頭則像廚師戴在頭上的攝像機,隨著廚師的移動而變換視角。
當使用前面提到的方法將末端執(zhí)行器姿態(tài)投影到腕部攝像頭圖像上時,會出現(xiàn)一個問題:投影圓始終保持靜態(tài),無法傳達手部的移動信息。這就像你戴著攝像頭看自己的手時,無論你的手怎么移動,它在攝像頭畫面中的相對位置幾乎不變,這無法反映真實的空間移動。
為了解決這個問題,研究團隊引入了"射線圖"編碼技術。射線圖記錄了每個攝像頭相對于其位置的光線起點和方向。對于每個攝像頭,團隊計算了其在所有時間點的射線圖。由于腕部攝像頭隨機械臂移動,腕部攝像頭的射線圖能隱式編碼末端執(zhí)行器位姿的運動信息。
這就像給攝像頭增加了一種"空間感知"能力,讓它知道自己在空間中的位置和視角。射線圖被連同軌跡圖一起輸入到模型中,提供豐富的軌跡信息,改善了跨視圖的一致性。
通過這種方式,EVAC能夠處理固定的頭部攝像頭視圖和動態(tài)的腕部攝像頭視圖,為機器人提供全面的環(huán)境表示。這種多視角生成能力使EVAC在處理需要精確空間理解的任務時表現(xiàn)出色。
四、數(shù)據(jù)驅動的真實性:不只成功,也學習失敗
在機器人學習中,失敗的經(jīng)驗與成功的經(jīng)驗同樣重要。想象一個初學烹飪的人,不僅需要知道如何正確炒菜,還需要知道火太大會導致食物燒焦,油放太多會濺出等失敗情況。同樣,機器人也需要學習各種可能的失敗場景,以便在實際操作中避免這些錯誤。
EVAC世界模型的一個關鍵特點是,它被設計用來處理成功和失敗場景。研究團隊不僅利用了AgiBot-World數(shù)據(jù)集中的成功軌跡,還精心收集了多樣化的失敗軌跡,顯著擴展了訓練數(shù)據(jù)的覆蓋范圍。
他們與AgiBot-Data團隊合作,獲取了原始數(shù)據(jù)的完整訪問權限,從中挖掘了大量失敗案例。例如,當機器人嘗試抓取物體但抓空了,或者物體從夾爪中滑落的情況。此外,研究團隊還開發(fā)了一個自動化數(shù)據(jù)收集管道,在遠程操作和真實機器人推理期間捕捉真實世界的失敗案例。
這種全面的數(shù)據(jù)收集策略,就像為學習駕駛的人提供各種道路和天氣條件下的駕駛經(jīng)驗,不僅包括順利行駛的情況,還包括如何應對打滑、急剎車等緊急情況。這大大增強了模型在不同場景下的泛化能力,確保它能適應各種真實世界的機器人任務。
通過整合這些多樣化的數(shù)據(jù),EVAC能夠更準確地模擬現(xiàn)實世界中的各種情況,包括那些不太理想的結果。這種全面性使得EVAC在作為政策學習的數(shù)據(jù)引擎和政策模型的評估器時,都能提供更可靠的結果。
五、EVAC的雙重應用:數(shù)據(jù)引擎與政策評估器
EVAC不僅僅是一個視頻生成模型,它在機器人學習領域有兩個關鍵應用,解決了機器人操作中的核心挑戰(zhàn)。
首先,EVAC可以作為"數(shù)據(jù)引擎",為機器人策略學習提供豐富的訓練數(shù)據(jù)。想象你需要教機器人完成一個新任務,比如從紙箱中取出水瓶放到桌上。傳統(tǒng)方法需要人類操作員收集大量示范數(shù)據(jù),這既耗時又昂貴。EVAC提供了一種解決方案:只需要少量的人類收集軌跡,就能生成大量多樣化的訓練數(shù)據(jù)。
具體來說,對于每條收集的軌跡,研究人員首先通過分析夾爪開合度的變化來標識物體接觸階段的開始和結束時間點。然后,將軌跡分割為三個不同階段:抓取前的接近(fetching)、抓取(grasping)和抓取后的運輸(homing)。
以抓取前階段為例,研究人員提取觀察圖像和相應的動作序列,對早期動作進行空間增強以生成新的動作起點,然后通過插值創(chuàng)建新的動作軌跡。隨后,將觀察圖像和反轉的動作序列輸入EVAC世界模型,生成相應的視頻幀。生成的幀經(jīng)過重新排序,創(chuàng)建一個正確的數(shù)據(jù)集。通過這個過程,原始的少量軌跡可以被增強成更加多樣化的軌跡集,提高策略學習的魯棒性和泛化能力。
其次,EVAC可以作為"政策評估器",為已訓練的機器人策略模型提供仿真測試環(huán)境。給定初始視覺觀察和相應指令,策略模型生成動作序列。這些動作序列與初始觀察一起輸入EVAC,生成新的觀察結果。這個過程不斷重復,直到策略模型生成的動作低于預定閾值。隨后,人類評估員觀看EVAC生成的視頻來評估任務是否成功完成。
這種評估方法有兩個主要優(yōu)勢:首先,它無需創(chuàng)建復雜的仿真資產(chǎn),因為EVAC能夠更好地表現(xiàn)某些物理方面,例如流體動力學;其次,視頻回放可以加速以節(jié)省時間,或者可以與視頻多模態(tài)大語言模型(Video-MLLMs)集成,減少人工評估的需求。
通過這種方式,EVAC可以在初始開發(fā)階段基本替代真實機器人硬件的使用,顯著減少了部署成本。研究實驗表明,通過EVAC獲得的評估結果與真實世界場景中觀察到的結果高度相關,證明了這種方法的可靠性。
六、實驗驗證:EVAC的性能表現(xiàn)
為了驗證EVAC的有效性,研究團隊進行了一系列全面的實驗。實驗數(shù)據(jù)主要來源于AgiBot World數(shù)據(jù)集,該數(shù)據(jù)集包含超過210種任務和100萬條軌跡。為確保數(shù)據(jù)全面覆蓋各種情況,研究團隊還精心收集了大量失敗案例,豐富了訓練數(shù)據(jù)的多樣性。
在模型實現(xiàn)上,EVAC基于UNet視頻擴散模型構建。訓練過程中,CLIP視覺編碼器和VAE編碼器被凍結,而其他組件如UNet、重采樣器和線性層則進行了微調。單視圖版本的訓練需要約32臺A100 GPU運行2天,而多視圖版本則需要約32臺A100 GPU運行8天。研究團隊通過實驗確定,將內(nèi)存大小設置為4、分塊大小設置為16可以在生成質量和資源成本之間取得平衡。
實驗結果展示了EVAC在生成可控制的機器人操作視頻方面的卓越能力。即使在復雜場景下,EVAC也能合成真實的機器人-物體交互視頻,同時保持高視覺保真度和準確地跟隨輸入動作軌跡。
EVAC的分塊式自回歸擴散架構和稀疏內(nèi)存機制使其能夠在連續(xù)分塊推理過程中保持視覺穩(wěn)定性和場景一致性。實驗結果表明,在單視圖場景下,生成的視頻最多可保持30個連續(xù)分塊的清晰度和可靠性;在多視圖設置下,則可保持10個分塊的質量。然而,在更長序列中會開始出現(xiàn)偽影和模糊,這表明在序列長度和視覺質量之間存在權衡。
作為政策評估器,EVAC與真實世界環(huán)境表現(xiàn)出高度一致性。研究團隊選擇了四個操作任務進行評估,包括拿起水瓶、拿起吐司、拿起培根和拿起生菜葉。對于每項任務,首先在真實世界中進行評估,并將這些測試的初始幀記錄作為EVAC評估的圖像條件。三名獨立評估員通過觀察真實世界執(zhí)行或EVAC生成的序列來判斷成功或失敗。
盡管EVAC和真實世界評估在絕對成功率上存在微小差異,但跨任務的相對性能趨勢是一致的。這些發(fā)現(xiàn)證明了EVAC在跨任務策略性能分析和真實世界動態(tài)復制方面的可靠性。
為了評估EVAC作為數(shù)據(jù)引擎的能力,研究團隊進行了一項實驗,展示EVAC生成的新動作軌跡可以增強策略訓練數(shù)據(jù),提高任務性能。實驗任務是從紙箱中拿起水瓶并放在桌子上,這是一項挑戰(zhàn)性任務,需要精確的力度和操作技巧來從緊packed箱子中提取水瓶。
比較了兩種訓練設置:一種僅使用20個專家示范作為訓練數(shù)據(jù),另一種使用相同的20個專家示范,并額外增加30%由EVAC世界模型生成的軌跡。結果顯示,當包含增強軌跡時,成功率從0.28顯著提高到0.36,這凸顯了EVAC世界模型通過提供多樣化和有效的訓練樣本來增強策略學習的能力,即使專家示范數(shù)量有限。
此外,研究團隊還進行了失敗數(shù)據(jù)影響的分析。他們訓練了兩個模型:一個包含失敗軌跡,另一個不包含。在測試場景中,機器人假裝抓取一個不存在的水瓶。不包含失敗數(shù)據(jù)的模型往往過擬合成功示例,導致它"幻覺"出水瓶被成功抓取,盡管實際上沒有物理交互。相比之下,包含失敗數(shù)據(jù)的EVAC能夠準確識別并區(qū)分失敗的抓取嘗試,展示了它對過擬合的魯棒性和處理邊緣情況的能力。
七、局限性與未來展望
盡管EVAC在機器人視頻生成方面取得了顯著成就,但研究團隊也坦誠指出了當前工作的幾個局限性,這些問題也指明了未來研究的方向。
首先,EVAC使用單位圓表示夾爪開合度的方法,雖然對簡單的夾爪有效,但可能無法有效推廣到更復雜的末端執(zhí)行器,例如靈巧手(dexterous hands)。這就像用簡單的笑臉表情符號可以表達基本情緒,但難以傳達復雜的情感細微差別。未來,隨著機器人硬件配置的多樣化,需要開發(fā)更靈活的表示方法以適應不同類型的機器人手部。
其次,腕部攝像頭經(jīng)常捕捉到無關的背景噪聲,比如在機器人工作區(qū)域周圍走動的人。這增加了視頻生成的復雜性,限制了多視圖推理的效率。在實驗中,這一限制將多視圖版本的分塊數(shù)量限制在10個,而單視圖版本則可以達到30個。這種情況就像在拍攝電影時,除了主角外還有許多背景人物不斷走動,使得場景控制變得更加困難。未來的研究可能需要引入更強大的背景抑制或前景強化技術。
此外,動作條件世界模型的多個潛在應用尚未被充分探索,例如與actor-critic方法結合用于強化學習。想象一下,EVAC不僅能模擬機器人動作的視覺結果,還能預測這些動作的潛在獎勵,從而指導機器人學習更優(yōu)的行為策略。未來的研究可以擴展EVAC的應用范圍,探索這些方向,并從先前的相關工作中汲取靈感。
研究團隊希望這項工作能為推進具身世界模型的發(fā)展奠定基礎,并啟發(fā)該領域的進一步發(fā)展。就像早期的飛行模擬器為飛行員培訓鋪平了道路,EVAC這樣的世界模型可能最終徹底改變機器人學習和評估的方式,使其更加高效、經(jīng)濟且可擴展。
總結來說,EVAC為機器人學習領域提供了一個強大的工具,通過動作條件視頻生成,它使得機器人策略的測試和訓練變得更加高效和經(jīng)濟。盡管還存在一些局限性,但這項研究無疑向著更加真實、多樣化的機器人仿真環(huán)境邁出了重要一步。隨著技術的不斷完善,我們可以期待在不久的將來,像EVAC這樣的技術將成為機器人學習過程中不可或缺的組成部分,加速機器人技術在各個領域的應用和發(fā)展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.