至于人形機器人“笨”的原因,王興興坦言“如今泛用性的AI還是不太夠。”他表示,全球都在等待真正的機器人“大腦”的誕生。
如今的人形機器人,個個都“沒頭腦”。
對這些人形機器人的控制,依賴的是程序員“預先編好的程序”,向機器人輸入情況描述以及應對方式的規則,使其在相應情況下完成操作。
宇視科技創始人王興興在接受采訪時,曾通俗地解釋:“你能讓他(人形機器人)倒立、空翻,或者做一些避障,這些都是針對固定任務做了專門的AI訓練”,是單一功能的AI。
譬如,人形機器人上春晚舞臺跳手絹舞這個復雜的任務場景,就可能是根據“預先編好的程序”進行的訓練。
但是,一旦場景和任務稍微換一下,人形機器人的成功率就會暴跌。
就像在春晚表演完后,人形機器人離開舞臺,就需要有人幫助“掐住脖子”。面對劉謙的握手邀請,人形機器人竟突然下跪癱倒。
截圖于劉謙發布的春晚花絮
甚至于,控制人形機器人,有時還需要工作人員通過遙控器來操作。
某種程度上,這些人形機器人就是一個個提線木偶、遙控玩具,稱不上“人”,因為它們“沒頭腦”。
這也是人形機器人很難快速量產的原因,沒有消費者愿意為一個不夠聰明的人形機器人買單。“笨蛋”人形機器人,又能如何應對我們的物理世界千變萬化的情況?
人形機器人“大腦”研發,無疑是一個很有意思的賽道。
彭志輝就對這個賽道十分感興趣。
彭志輝,圖源:“稚輝君”微博
作為曾經的華為“天才少年”,彭志輝年薪一度高達200萬元。他離職創業,自然不同于一般的創業者。
他有著更高追求,其創立的智元公司沒跟隨同行、將重心放在機器人軀體上,而是放在機器人“大腦”上。
近期,智元公司發布了首個通用具身基座模型——智元啟元大模型Genie Operator-1(GO-1),標志著國內機器人從單一功能向多場景泛化的技術突破。
GO-1看似回答了王興興的“泛用性的AI還是不太夠”的問題,但距真正的機器人“大腦”還有一段距離。
而彭志輝與智元機器人的“野心”:希望未來所有機器人都能共享同一個“大腦”——GO-1,或無法實現。
并非“首家”
截至目前,人形機器人“炫耀性”作用遠大于實際作用。
人形機器人從來都不是新鮮事物。
過去幾十年,世界各地都有各種人形機器人研發出來。文藝作品也不停地演繹著人形機器人的“無所不能”,人們對這一形象十分熟悉。
但《刃辛機器人》了解到,我們生活生產中卻很少有人形機器人的應用。
如今零星“進廠打工”的,并非人形機器人,多為機械臂等各種形態的工業機器人,而且從事都是重復性、機械性的工作。
王興興創辦宇視科技之初,就沒有直接研發人形機器人,而是從雙足的機器狗產品開始。他在2009年就嘗試過做人形機器人,認為太復雜了,無法駕馭。
直到AI大模型的出現,為人形機器人帶來了新的想象力。
簡單來講,借助大模型,將語義理解能力和推理生成能力引入其中,就相當于給人形機器人裝上了“大腦”,能夠理解世界和人類,真正地為人類服務。
但,這僅僅存在于“想象”階段,如王興興所言,如今泛用性AI還不夠,即用于人形機器人的具身智能大模型并不成熟。
ChatGPT、Deepseek等AI大模型,是無法直接用到人形機器人上,為其充當“大腦”的。人形機器人要通往AGI,需要專門針對具身智能領域的多模態大模型 —— 具身智能大模型,來提升機器人在感知、決策、控制、交互等方面的能力。
具身智能大模型是基于AI技術打造,專門賦能人形機器人,幫助人形機器人實現在通用應用場景下的落的專用大模型。
ChatGPT、Deepseek等非具身智能大模型服務的對象是人類,輸出的內容是給人看或者給人讀,更多還是在人機交互、內容生成等方面展現價值。
具身智能大模型的服務對象是機器,其輸出的內容是需要機器人能夠理解,并最終要轉化為具體可執行動作的控制指令,從而與周圍環境進行交互,并做出各種動作。
智元機器人推出的GO-1,絕非國內第一個具身智能大模型。在此之前,國內一些機器人初創企業已經開始推出自己的具身智能大模型。
譬如,有鹿機器人的Master 2000、若愚科技的九天大模型、千訣科技的千訣.機器人大模型、穹徹智能的Noematrix Brain、X square(自變量機器人)的Great Wall系列的WALL-A模型以及千尋智能的具身智能大模型……
GO-1僅僅是國內首個通用具身基座模型。
所謂通用具身基座模型,采用模塊化架構(如ViLLA框架),整合多模態大模型(VLM)、隱式規劃器和動作專家,支持跨本體適配和任務泛化,其重要的特點是泛用性。
簡而言之,GO-1是“啥都能干,但都不精”。
就像一個廚子,?能看菜譜學做菜(看人類視頻學習),今天炒川菜、明天做西餐(適配不同場景)?,甚至能用新買的廚具(跨本體硬件)。雖然做每道菜不是最頂尖的,但換菜單時不用重新買機器人(降低成本)。
陷“數據荒”
GO-1距離真正的人形機器人“大腦”有多遠?
首先,不可否認GO-1具有充當人形機器人“大腦”的潛力。
GO-1通過ViLLA架構實現多模態學習,可利用人類視頻數據提升小樣本泛化能力,支持機器人從單一任務到開放場景的靈活切換。
例如,GO-1支持的智元機器人靈犀X2已能完成騎單車、縫葡萄等復雜任務,并初步具備自然語言交互能力。
這表明GO-1具備整合感知、決策和執行能力,符合“大腦”的核心需求。
GO-1還突破了傳統預設程序的限制,可結合語義推理執行動態指令?。
例如,靈犀X2能通過自然語言指令完成充電協作、家務輔助等任務,體現了從“工具”到“智能體”的轉變?。
其二,GO-1距離真正的人形機器人“大腦”還很遠。從智元公司對這一大模型的訓練過程,就可以得出這一結論。
當初,智元公司決定構建人形機器人“大腦”之后,就發現門檻太高。
眾所周知,大模型的訓練是需要大量的數據投喂的。
ChatGPT、Deepseek等非具身智能大模型,在訓練過程“吃”下去的數據可謂不計其數。單就ChatGPT,就已消化了全球互聯網2/3的文本語料。
人形機器人“大腦”所需“投喂”的數據,更多的是動作數據,因為它們是需要像人一樣進行各種動作。
文本語料從互聯網中就可以獲得,但動作數據卻非常難找。
智元公司曾試圖尋找行業內的開源數據庫,但發現高質量、統一格式的數據幾乎不存在。
行業內雖然開源了百萬條由真實機器人收集的訓練數據集,但是這些數據實際上由不同公司、不同型號規格的機器人采集,數據質量較低,達不到智元公司的要求。
智元公司決定“笨鳥先飛”,采取“笨辦法”,于2023年9月建立了動作數據采集工廠。在工廠里一比一地模仿人類生活中的每一個動作,將其采集下來,形成數據,然后“喂”給大模型。
為此,他們搭建了家居、餐飲、商超、辦公和工業等五類應用場景中。
在不同場景中,數據采集員們手持設備,手把手地控制人形機器人完成抓、握、放等動作。有時采集員頭戴VR設備,精準地讓機器人模仿學習人類動作。
譬如,在臥室中,人形機器人乖巧地跟著采集員學習疊衣服。在餐桌前,機器人學著把餐具挨個擺放整齊,還要學會打餐各式菜肴,并且不會手抖。在商超收銀臺前,機器人一只手拿掃碼器,另一只手拿著商品掃碼。
采集“收銀”機器人的數據,圖源:36氪、智能涌現
人形機器人每完成一個動作,就能采集一套數據。這些數據聚集起來,上傳至云端,便被智元團隊喂給大模型,從而讓機器人真正掌握一項技能,比如沖咖啡、熨衣服等。
笨鳥先飛,談何容易?
僅一個倒水的動作,大模型就需要“吃”下上萬條數據才能學會。而據36氪前幾個月的報道,一位采集員每天僅采集約150條數據,工廠里的近百臺機器人日均采集條數據也才3至5萬條。
雖然僅僅幾個月,智元公司就積累了涉及217個任務的百萬條高質量標準動作軌跡數據,規模全球最大。但是,這些動作數據,與ChatGPT“吃”下的全球互聯網2/3的文本語料的數量級相比,可謂少得可憐。
靠這些“少的可憐”的動作數據,GO-1這樣的具身智能大模型又何時能夠達到ChatGPT的聰明程度呢?
野心難實現
AI大語言模型,如ChatGPT,之所以表現得聰明,是因為在不斷“喂”其數據進行訓練后,量變引發質變,使其在某個時間點,突然出現的、難以預測的、超越了模型初始設計和預期的智能行為或能力,即“智能涌現”現象。
業內稱此為?尺度定律。即,隨著模型參數、訓練數據量和計算資源的指數級增長,模型的性能會以可預測的冪律(Power Law)方式提升?,甚至在某些任務中表現出“涌現”的智能能力。
具身智能大模型需要獲得ChatGPT這樣的聰明度,必須不斷“喂”動作數據。只要“喂”得足夠多,到某一天,具身智能大模型就會突然變得聰明起來,真的像真人“大腦”一樣了。
具身智能大模型需要“喂”多少數據,才能像真人“大腦”呢?
智元公司采取的采集動作數據的“笨辦法”,堪稱龜速。業內人士坦言:“如果只靠我們一個工廠采集數據,采集1億條需要幾百年。”
目前,全球機器人動作數據相較于大語言模型的“核爆點”還差3-4個數量級。
智元公司目前想出的新對策,就是聯合同行一起采集數據。
智元公司首先對自己采集的數據開源,“不擔心因為別人拿走一些數據而被超越,另一方面也是希望有更多人成為同道中人。”大家一起采集數據。
GO-1的發布,就是為了解決數據不夠的問題。但是,這也隱藏了智元公司,以及其創始人彭志輝的一個野心,那就是“希望未來所有機器人都能共享同一個‘大腦’”,而這個大腦就是GO-1。
因為GO-1的一大特點是泛化性好,能在不同機器人本體上部署。大家一起采集的數據,可以通過GO-1這一通用具身基座模型共享。
GO-1作為首個通用具身基座模型,有著唯一性,若相關人形機器人公司沒有專用的具身智能模型,倒是可以共享數據。但是,如今很多人形機器人公司都有各自的具身智能模型,都在進行數據“投喂”,進行艱苦訓練,為何要與GO-1共享數據?
GO-1要變“聰明”,所需數據可不少。智元公司到底聯合多少家公司一起采集數據,才能符合?尺度定律,達到人形機器人“智能涌現”時刻呢?
僅靠幾家公司,顯然不行。哪怕聯合所有研發機器人“大腦”的公司,恐怕都不夠。
結語:或可借鑒自動駕駛訓練模式
國內的智能新能源汽車發展迅速,L3級自動駕駛汽車開始量產。
汽車能進行自動駕駛,也經過了大量相關數據“投喂”和訓練。僅僅在物理世界采集汽車行駛路測所需的數據,費時費力,而且無法完成。
據美國蘭德公司研究,自動駕駛汽車要保證絕對安全,需要110億英里(177億公里)的里程測試。假設由100輛車組成車隊,每年365天每天24小時不間歇以28英里每小時的平均速度進行測試,大概需要500年。
在激烈競爭中“存活”下來的車企,不可能采取這樣的“笨辦法”。它們的做法是仿真訓練,即通過數學建模的方式將自動駕駛實際的應用場景進行數字化還原,建立盡可能接近真實世界的系統模型,從而進行訓練。
仿真訓練的速度是物理世界路測的千倍、萬倍,這才使得自動駕駛發展如此迅速。
《刃辛機器人》認為,人形機器人的具身智能大模型,也可借助仿真訓練,更快地達到“智能涌現”時刻。
只是,相較于自動駕駛只需模擬道路及周邊環境等,具身智能大模型需要的仿真訓練設計場景則多得多,復雜得多。(文/刃辛機器人 陳重山)
參考資料
[1]《加緊建廠拼量產,上海具身智能“獨角獸”為何強推這條路》,上觀、文匯報,沈湫莎
[2]《我們去看了智元機器人的“數采廠”,等等!這不是<星球大戰>片場嗎?》,36氪、智能涌現,田哲
[3] 《自動駕駛究竟需要什么樣的仿真?》,智車科技官方
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.