7月25日,清華大學與生數科技聯合發布Vidar模型。據介紹,作為視頻大模型Vidu在具身智能領域延伸的重大突破,Vidar是全球首個基于通用視頻大模型實現視頻理解能力向物理決策系統性遷移的多視角具身基座模型。該模型創新性地構建了支持機器人雙臂協同任務的多視角視頻預測框架,在保持SOTA性能的同時,展現出顯著的少樣本學習優勢。
Vidar可在僅20分鐘少樣本訓練下,泛化至全新機器人本體,完成多視角雙臂操作任務,所需數據量約為行業領先的RDT的八十分之一,π0.5的一千兩百分之一。相比以往依賴百萬級動作數據的機器人控制模型,Vidar顯著降低了數據門檻與訓練成本。
該模型基于生數科技此前推出的視頻大模型Vidu,在此基礎上融入75萬條雙臂機器人具身數據,構建統一觀測空間后進行預訓練,并結合自動化動作采集與逆動力學解碼器,實現從視頻預測到動作控制的全鏈路閉環。
清華與生數科技團隊還提出“任務無關動作數據”訓練范式,通過ATARA方法自動采集機器人動作軌跡,僅需10小時,即可完成機器人動作空間泛化。配合高精度動作執行模型AnyPos,Vidar在實際任務中實現近100%成功率,精度遠超當前行業基線33%~44%。
Vidar在VBench視頻生成測試中,在主體一致性、背景還原與畫面質量等維度均顯著領先。結合測試時擴展機制(Test-Time Scaling),模型可根據具體任務智能調節生成預測,進一步提高真實場景下的執行穩定性。
研究團隊表示,Vidar打破了現有VLA架構對特定機器人任務數據的依賴,首次構建了“通用視頻-中等具身視頻-少量本體數據”的三級訓練框架,推動了具身智能向“虛實互通”的下一階段演進。未來,Vidar可廣泛應用于居家、醫院、工廠等場景。
生數科技創始人兼首席科學家朱軍教授表示:"我們致力于通過多模態大模型技術推動數字世界與物理世界的深度融合與協同進化。一方面,我們正在打造新一代數字內容創作引擎,讓AI成為人類創意的延伸;另一方面,我們通過訓練具身視頻基座模型,實現虛擬與現實的深度交互。"(袁寧)
本文來自網易科技報道,更多資訊和深度內容,關注我們。