新智元報道
編輯:KingHZ
【新智元導讀】當OpenAI、谷歌還在用Sora等AI模型「拍視頻」,英偉達直接用視頻生成模型讓機器人「做夢」學習!新方法DreamGen不僅讓機器人掌握從未見過的新動作,還能泛化至完全陌生的環境。利用新方法合成數據直接暴漲333倍。機器人終于「做夢成真」了!
如果機器人能做夢,會怎樣?
英偉達新研究項目DreamGen交出了答案。
論文鏈接:https://arxiv.org/abs/2505.12705
項目鏈接:https://research.nvidia.com/labs/gear/dreamgen/
DreamGen并非讓機器人「看視頻」去學習,而是把它們扔進一個神經網絡生成的像素級「夢境世界」。
在「做夢」過程中,它們可以自主探索、學習,體驗各種場景動作。
通過生成數十萬條帶有馬達動作標簽的神經軌跡,DreamGen讓機器人能快速掌握新技能,泛化到全新的名詞、動詞和環境中。
無論是類人機器人(GR1)、工業機械臂(Franka),還是可愛的迷你機器人(HuggingFace SO-100),DreamGen都能讓它進入夢境世界。
圖1:機器人通過DREAMGEN實現泛化
相比傳統的圖形引擎,DreamGen根本不在意場景中是否有可變形物體、液體、半透明材質、復雜接觸或詭異光影。
手工的特征工程,幾乎不可能實現這些效果。
而對DreamGen來說,每一個世界只不過是神經網絡前向傳播的結果。
不管夢境多復雜,它的計算時間始終是恒定的。
DreamGen將其作為合成數據生成器,充分挖掘其在物理推理、自然運動和語言理解方面的先驗能力。
首先在已有遠程操控數據任務中,研究人員評估了DreamGen生成額外訓練數據的效果,涵蓋模擬環境和現實世界兩個方面。
在模擬環境中,研究者將DreamGen應用于RoboCasa基準測試,將合成數據規模擴展至原始人類演示數據的333倍。
結果顯示,隨著神經軌跡數量的增加,策略性能呈現對數線性增長(見下圖)。
在RoboCasa中擴展神經軌跡的數量
在現實環境中,研究人員在9個多樣化任務中進行了驗證,使用的機器人包括Fourier GR1、Franka Emika和SO-100。
不同類型的機器人
這些任務涵蓋了一些難以在模擬中實現的復雜操作,比如疊毛巾、擦液體、使用錘子以及舀取M&M豆。
在所有類型的機器人上,DreamGen都顯著提升了成功率:
GR1的4個任務平均從37%提升至46.4%;
Franka的3個任務平均從23%提升至37%;
SO-100的2個任務平均從21%提升至45.5%;
令人驚艷的是,只用10-13條真實軌跡/任務,類人機器人最終學會了22種新技能。
比如倒水、疊衣服等——盡管它之前從未接觸過這些動作。
更厲害的是,他們還把機器人帶出了實驗室,放進NVIDIA總部的咖啡廳里,DreamGen依然發揮出了神奇效果。
英偉達團隊實現了真正的「從零到一」的泛化能力:對陌生動詞的成功率從0%提升到43%,在未見過的環境中從0%提升到28%。
平行世界,夢中訓練
像Sora和Veo這樣的生成式視頻模型,本質上是神經物理引擎。
它們壓縮了互聯網上數十億段視頻,學習出多種可能的未來——即從任意起始畫面推演出的各種可能發展。
DreamGen就是借助了這項能力,包含下列四大流程:
1. 在目標機器人數據上,微調一個最先進的視頻模型;
2. 用多樣化的語言提示詞,引導模型模擬不同的「平行世界」:讓機器人在全新場景中「夢見」自己會如何行動。然后篩掉那些沒按指令執行的「噩夢」;
3. 利用逆向動力學或潛動作模型,恢復出偽動作標簽;
4. 在這個大規模增強后的神經軌跡數據集上,訓練機器人基礎模型。
就是這樣:只是更多的數據,加上傳統的監督學習方法。
圖2:DREAMGEN概覽
視頻世界模型微調
在第一階段,研究人員會在人類遠程操作的機器人軌跡上對視頻世界模型進行微調。
這一步可以幫助模型適應目標機器人的物理限制和運動能力。
為了避免模型在微調過程中「遺忘」原本從互聯網上學到的豐富視頻知識,默認使用LoRA(Low-Rank Adaptation,低秩適應)方法來對視頻世界模型進行微調。
在微調這些模型時,主要關注兩個指標:是否能遵循指令以及是否符合物理規律,以此評估模型是否已經很好地適配了目標機器人的任務域。
在大多數下游機器人實驗中,研究者用WAN2.1作為基礎的視頻世界模型。
對于像RoboCasa和DROID這類包含多個視角的數據集,他們會將不同視角拼接成一個2×2的網格(其中一格可能是黑色像素),再對視頻世界模型進行微調。
視頻世界模型展開(Rollout)
在模型完成對目標機器人形態的微調后,研究人員就可以使用不同的初始畫面和語言指令生成合成機器人視頻。
模擬實驗中:他們從仿真器中采集新的初始畫面,并隨機設置目標物體或環境的位置。
現實世界實驗中:他們手動拍攝新的初始畫面,同樣隨機化目標物體的位置。
環境泛化實驗中:他們采集了來自全新環境的初始畫面,而視頻世界模型的訓練數據仍僅來自一個環境。
行為泛化實驗中:他們手動設計了新穎的行為提示詞,同時將所有候選提示詞納入視頻基準測試。
偽動作標簽生成
提取偽動作標簽的模型有兩種架構,如圖3所示,其中(a)用于訓練逆向動力學模型(IDM)的架構;(b)用于訓練潛動作模型(LAPA)的架構。
這兩種方法都可用于從生成的視頻中提取出相應的偽動作標簽,為后續的策略訓練提供監督信號。
圖3:提取偽動作。(a)逆動力學模型(IDM)的架構,(b)潛動作模型的架構
IDM動作生成
對于逆向動力學模型(Inverse Dynamics Model,IDM)的架構,研究人員采用了帶有SigLIP-2視覺編碼器的擴散Transformer,并使用「流匹配」目標進行訓練。
IDM的輸入是兩幀圖像,訓練目標是在這兩幀之間預測一段連續的動作(見圖3)。
他們引入語言或本體感知數據作為輸入,因為目標是讓IDM模型專注于學習機器人自身的動力學規律。
IDM的訓練數據與對應視頻世界模型所使用的數據集一致(除非另有說明)。
在訓練完成后,使用滑動窗口的方法來進行偽動作標簽預測:
IDM每次預測H個動作,
然后窗口向前滑動一個時間步,再預測接下來的動作;
如此反復進行,直到整個視頻都被偽標注完成。
潛動作生成
對于潛動作標簽的生成,他們采用了LAPA潛動作模型。
論文鏈接:https://openreview.net/forum?id=VYOe2eBQeh
LAPA使用VQ-VAE(向量量化-變分自編碼器)目標進行訓練。
在從生成視頻中提取潛動作時,將當前幀和1秒之后的未來幀作為條件輸入給LAPA模型。
訓練潛動作模型時不需要目標機器人的真實動作標簽,這使得該方法特別適合跨機器人泛化或數據稀缺場景。
訓練該潛動作模型所用的混合數據集詳見下表3。
基于神經軌跡的策略訓練
最后一步,在由DREAMGEN生成的神經軌跡上,研究人員訓練視覺-動作策略模型。
這些策略模型以語言指令和圖像觀測作為條件輸入。由于神經軌跡中不包含狀態信息,他們將狀態輸入部分用全零值填充。
研究團隊提出了兩種基于神經軌跡進行訓練的方式.
1. 與真實軌跡聯合訓練(co-training)
將神經軌跡與真實機器人數據以1:1的采樣比例進行聯合訓練。
在GR00T N1中,將兩類軌跡視為不同的機器人形態,并使用不同的動作編碼器和解碼器分別處理。
2. 僅使用IDM標簽的神經軌跡訓練
完全不使用真實數據,只使用由IDM模型標注的神經軌跡進行訓練。
在行為泛化與環境泛化實驗中,僅使用神經軌跡進行策略訓練,進一步驗證DREAMGEN在缺乏真實數據情況下的策略泛化能力。
詳細結果
研究團隊展示新方法在三個方面的核心應用能力:
1. 用于現有任務的數據增強
2. 泛化到新行為的能力
3. 泛化到新環境的能力
訓練數據增強
在模擬實驗中,在RoboCasa基準任務上,團隊對DREAMGEN的流程進行評估,遵循其原始論文中設定的訓練和評估協議。
在現實世界實驗中,選取了9個真實任務進行評估,涵蓋3種不同形態的機器人:類人機器人GR1、機械臂機器人Franka、低成本的機器人臂SO-100。
下圖4展示了在不同數量的神經軌跡下,訓練的機器人策略性能,分別對應三種真實數據規模:
低數據量(720條演示)
中等數據量(2.4k條演示)
高數據量(7.2k條演示)
主要觀察結果:
1. 聯合訓練帶來一致性提升
由于兩者效果相近,但IDM可以支持僅使用神經軌跡進行訓練和評估。
2. 神經軌跡數量與策略性能呈對數線性關系
機器人策略的性能與神經軌跡的數量之間呈現出一致的對數線性斜率。
這說明:通過神經軌跡進行合成數據生成相比傳統模仿學習中的人工演示采集方式,具有更強的可擴展性和成本效益。
3. 僅用IDM神經軌跡也可獲得非凡性能
即便完全不使用真實軌跡,只使用IDM標簽的神經軌跡訓練策略模型,在24個任務中仍可達到平均20.6%的成功率。
這進一步證明了神經軌跡本身的高質量和有效性。(具體實驗結果如下表4。)
現實世界實驗
在現實世界實驗中,研究團隊為每個任務采集如下數量的真實軌跡:
GR1類人機器人的4個任務:每個任務采集100條軌跡
Franka機械臂的3個任務:每個任務采集100條軌跡
SO-100機器人臂的2個任務:分別為「草莓抓取-放置」任務采集40條軌跡,以及「井字棋」任務采集50條軌跡
如下圖5所示,無論是哪種視覺-動作策略模型(Diffusion Policy、π?或GR00T N1),在所有機器人形態上,神經軌跡都能持續性地提升在復雜任務中的表現。
這些任務包括:工具操作、操作可變形物體、基礎的抓取與放置任務。
這些任務的一個共同特點是:它們在仿真中極難實現。
因為涉及復雜的物理交互(如工具與柔性物體的接觸),而目前的模擬技術很難真實復現這些場景,因此傳統方法難以通過模擬數據生成有效的訓練數據。
進一步觀察還發現,在GR00T N1模型上的性能提升幅度高于Diffusion Policy和π?。
研究人員推測原因是:
GR00T N1為IDM動作使用了獨立的動作編碼器和解碼器參數 ,這有助于緩解神經軌跡中狀態始終為0的影響;
這樣的設計增強了模型對神經軌跡結構的適應能力,從而在學習中更好地利用偽動作數據。
解鎖泛化能力
為了展示DREAMGEN如何在機器人學習中實現強泛化能力,首先使用2,884條GR1類人機器人在多樣化抓取-放置任務中的軌跡,對目標視頻世界模型進行訓練。
接著,用兩個類型的提示詞對該模型進行引導:
1. 在已知環境中提示全新行為
2. 在全新環境中提示已知與未知行為
然后生成對應的神經軌跡用于策略訓練。
目標物體在環境中的隨機化程度如圖11所示。該實驗中使用的基礎策略模型為GR00T N1。
行為泛化
DREAMGEN是否能讓機器人僅通過神經軌跡學習新的行為動作,完全不依賴人工遠程操作數據。
在這里,「新的行為動作」指的是之前未見過的、全新的動作動詞,而不僅是對已有動作的簡單變化。
令人驚喜的是:僅依靠一幀初始圖像和一句語言指令,視頻世界模型就能生成表現出完全未見行為的視頻(示例見圖12)。
基于這種能力,為14個全新行為任務每個生成50條神經軌跡,并僅用這些軌跡訓練下游視覺-動作策略模型。
如表1所示,使用GR00T N1僅在原始2,885條「抓取-放置」軌跡上微調的策略模型,在新行為任務中表現有限(平均成功率為11.8%),主要因為部分任務允許對「拾起動作」打部分分(比如在「倒水」任務中,僅拾起水瓶可得0.5分)。
然而,加入神經軌跡后,策略成功率從11.2%提升至43.2%,這表明DREAMGEN確實可以讓機器人學會完全陌生的動詞行為。
環境泛化
更令人驚訝的是,當將模型輸入來自全新環境的初始畫面時,視頻世界模型依然能夠生成高度真實、合理的機器人視頻,這些視頻在遵循微調期間學到的運動學規律的同時,還保留了預訓練階段從互聯網上學習到的世界知識。
研究人員沿用同樣的訓練流程,僅使用神經軌跡來訓練視覺-動作策略,發現無論是在已知行為(如抓取-放置的變化形式)還是全新行為(如澆花、關盒子、攪拌打蛋器等)上,都能獲得不錯的成功率(見上表1)。
值得注意的是,與此前研究通過增加環境數量來實現泛化的做法不同,新方法完全不需要額外采集任何物理環境數據。
新研究僅通過采集初始幀來實現泛化,相當于達成了零樣本環境遷移(zero-shot transfer)。
最后,作為對比,基線模型僅在一個環境中學習「抓取-放置」任務,對新環境的成功率為0%,完全無法泛化到訓練之外的環境。
DreamGen Bench
機器人的視頻生成基準
同時,這次研究還引入了DreamGen Bench,用于機器人的視頻生成基準,它與下游機器人策略呈正相關。
因此,視頻模型研究人員無需實際設置自己的物理機器人系統,即可幫助實現機器人技術。
此外,他們在RoboCasa的仿真實驗中分析了一個關鍵問題:增加神經軌跡的數量是否會提升策略性能。
他們通過調整神經軌跡的總數(從0到24萬條),在不同真實數據規模(低、中、高)下進行實驗評估,并觀測其對下游策略表現的影。
他們嘗試使用兩種方式獲取偽動作標簽:潛動作模型(LAPA)、逆向動力學模型(IDM)。
主要發現如下:
1. 無論使用LAPA還是IDM,神經軌跡都能在所有數據量場景中顯著提升策略性能。
2. 策略性能與神經軌跡總數之間呈現出「對數-線性」增長趨勢——即每新增一倍的神經軌跡數量,都會帶來穩定的性能提升。
這表明:神經軌跡是一種強大的數據擴展方式,并為機器人學習的可擴展性提供了新的增長維度——
相比依賴大量人工采集的傳統模仿學習方法,DREAMGEN所生成的合成數據在性價比與規模化上具有巨大優勢。
參考資料:
https://research.nvidia.com/labs/gear/dreamgen/
https://arxiv.org/abs/2505.12705
https://x.com/DrJimFan/status/1924819887139987855
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.