網易首頁 > 網易號 > 正文申請入駐

稚暉君再放大招！靈犀X2機器人上演“硅基絕活”

2025-03-12 18:51:31　來源: AI研究所

安徽舉報

分享至

今年的人形機器人賽道仿佛開啟了“狂飆”模式，每隔一段時間就有機器人企業發布視頻，從不同角度展現了各自的突破性水平。

數據顯示，全球人形機器人市場正以56%的年復合增長率狂飆突進，2030年市場規模將突破150億美元。中國更以“政策+資本”雙輪驅動，預計到2029年占據全球32.7%的市場份額，規模達750億元。在這股浪潮中，特斯拉Optimus、優必選Walker、宇樹等巨頭攻城略地，人形機器人走進家庭似乎不再遙遠。

智元靈犀X2上新

繼眾擎機器人后空翻熱點后，3月11日，智元機器人創始人、原華為“天才少年”彭志輝（網名稚暉君）正式發布其最新研發的雙足人形機器人——靈犀X2，不僅直接跳上“科目三”，再現“葡萄縫針”神技，甚至還有騎自行車等“硅基生物”絕活，展現出色的運動交互智能。

靈犀X2跳”科目三“，圖源自官方視頻

此外，此次更新的作業智能更是直指家庭服務場景的落地應用，讓人眼前一亮。智元視頻中提到，靈犀X2機器人有望成為“吉祥三保”——保安、保姆、保潔的結合體。

試想一下，當你宿醉未醒時，一個身高1.3米、長著豆豆眼的“鋼鐵直男”正在廚房煮醒酒湯；熊孩子放假作妖時，它能秒變“AI家長”輔導作業；幾十公斤的箱子說搬就搬，連腰肌勞損的借口都沒留給人類。

圖源自官方視頻

強化學習+情感計算，機器人學會“偷懶”

支撐靈犀X2“三保合一”野心的，是稚暉君團隊的三張技術王牌。

Diffusion動作引擎：通過海量人類運動視頻訓練，讓機器人像人類一樣形成“肌肉記憶”，甚至學會騎自行車、踩滑板車等“偷懶神器” 。

硅光動語大模型：該模型賦予機器人毫秒級的交互反應能力，使其能夠通過人類的面部表情和語音語調精準判斷情感狀態，并做出相應的回應。如面對“先救狗還是先救你”問題時，它會貼心回答道“它需要幫助，我沒事” 。

ViLLA架構：為了有效利用高質量的AgiBot World數據集以及互聯網大規模異構視頻數據，增強策略的泛化能力，智元提出了 Vision-Language-Latent-Action (ViLLA) 這一創新性架構。GO-1基于Vision-Language-Latent-Action (ViLLA)架構構建，相比傳統的Vision-Language-Action (VLA) 模型，ViLLA通過預測隱式動作標記（Latent Action Tokens），解決了圖像-文本輸入與機器人動作執行之間的鴻溝問題。簡單來看就是將視覺、語言、動作三腦合一，機器人可以“看說明書自學擰螺絲，聽著BGM學跳廣場舞”。

圖源自智元公眾號

當然，技術狂飆的背后也有翻車現場，早期訓練時，有機器人把跳躍當走路、一言不合就躺地擺爛，甚至因頻繁踩測試員腳背被打上“暴躁老哥”標簽。

走進尋常百姓家仍需時日

盡管靈犀X2的演示視頻充滿未來感，要想真正進入家庭場景還需克服運動安全的可靠性驗證、制造成本的降低以及情感交互的倫理邊界等關鍵瓶頸。畢竟與工業場景相比，家庭環境具有高度的不確定性和多樣性，物品的擺放位置、形狀、大小等都可能隨機變化。這種復雜性使得機器人在家庭場景中執行任務時面臨更大的挑戰，需要更強的泛化能力來適應各種情況。

正如稚暉君所言，靈犀X2是“第一臺真正具備復雜交互能力的靈動機器人”。確實，其模塊化設計和技術開源策略可能加速行業生態發展。但在外界看來，雖然人形機器人能跳能翻能騎車，但離真正意義上的 “ 通用 ” 還有不少的路要走，或許“最好的作品永遠是下一個。”

當下的你會花20萬買靈犀X2當保姆嗎？

*數據來源：《人形機器人產業研究報告》、高工機器人研究所

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.