今年的人形機器人賽道仿佛開啟了“狂飆”模式,每隔一段時間就有機器人企業發布視頻,從不同角度展現了各自的突破性水平。
數據顯示,全球人形機器人市場正以56%的年復合增長率狂飆突進,2030年市場規模將突破150億美元。中國更以“政策+資本”雙輪驅動,預計到2029年占據全球32.7%的市場份額,規模達750億元。在這股浪潮中,特斯拉Optimus、優必選Walker、宇樹等巨頭攻城略地,人形機器人走進家庭似乎不再遙遠。
智元靈犀X2上新
繼眾擎機器人后空翻熱點后,3月11日,智元機器人創始人、原華為“天才少年”彭志輝(網名稚暉君)正式發布其最新研發的雙足人形機器人——靈犀X2,不僅直接跳上“科目三”,再現“葡萄縫針”神技,甚至還有騎自行車等“硅基生物”絕活,展現出色的運動交互智能。
靈犀X2跳”科目三“,圖源自官方視頻
此外,此次更新的作業智能更是直指家庭服務場景的落地應用,讓人眼前一亮。智元視頻中提到,靈犀X2機器人有望成為“吉祥三保”——保安、保姆、保潔的結合體。
試想一下,當你宿醉未醒時,一個身高1.3米、長著豆豆眼的“鋼鐵直男”正在廚房煮醒酒湯;熊孩子放假作妖時,它能秒變“AI家長”輔導作業;幾十公斤的箱子說搬就搬,連腰肌勞損的借口都沒留給人類。
圖源自官方視頻
強化學習+情感計算,機器人學會“偷懶”
支撐靈犀X2“三保合一”野心的,是稚暉君團隊的三張技術王牌。
Diffusion動作引擎:通過海量人類運動視頻訓練,讓機器人像人類一樣形成“肌肉記憶”,甚至學會騎自行車、踩滑板車等“偷懶神器” 。
硅光動語大模型:該模型賦予機器人毫秒級的交互反應能力,使其能夠通過人類的面部表情和語音語調精準判斷情感狀態,并做出相應的回應。如面對“先救狗還是先救你”問題時,它會貼心回答道“它需要幫助,我沒事” 。
ViLLA架構:為了有效利用高質量的AgiBot World數據集以及互聯網大規模異構視頻數據,增強策略的泛化能力,智元提出了 Vision-Language-Latent-Action (ViLLA) 這一創新性架構。GO-1基于Vision-Language-Latent-Action (ViLLA)架構構建,相比傳統的Vision-Language-Action (VLA) 模型,ViLLA通過預測隱式動作標記(Latent Action Tokens),解決了圖像-文本輸入與機器人動作執行之間的鴻溝問題。簡單來看就是將視覺、語言、動作三腦合一,機器人可以“看說明書自學擰螺絲,聽著BGM學跳廣場舞”。
圖源自智元公眾號
當然,技術狂飆的背后也有翻車現場,早期訓練時,有機器人把跳躍當走路、一言不合就躺地擺爛,甚至因頻繁踩測試員腳背被打上“暴躁老哥”標簽。
走進尋常百姓家仍需時日
盡管靈犀X2的演示視頻充滿未來感,要想真正進入家庭場景還需克服運動安全的可靠性驗證、制造成本的降低以及情感交互的倫理邊界等關鍵瓶頸。畢竟與工業場景相比,家庭環境具有高度的不確定性和多樣性,物品的擺放位置、形狀、大小等都可能隨機變化。這種復雜性使得機器人在家庭場景中執行任務時面臨更大的挑戰,需要更強的泛化能力來適應各種情況。
正如稚暉君所言,靈犀X2是“第一臺真正具備復雜交互能力的靈動機器人”。確實,其模塊化設計和技術開源策略可能加速行業生態發展。但在外界看來,雖然人形機器人能跳能翻能騎車,但離真正意義上的 “ 通用 ” 還有不少的路要走,或許“最好的作品永遠是下一個。”
當下的你會花20萬買靈犀X2當保姆嗎?
*數據來源:《人形機器人產業研究報告》、高工機器人研究所
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.