文 | 田哲
編輯 | 蘇建勛
2025年初,我們了解到一件事,國(guó)內(nèi)具身智能獨(dú)角獸“智元機(jī)器人”(就是B站知名UP主“稚暉君”當(dāng)CTO的那家公司),在上海,建了一座“數(shù)據(jù)采集工廠”(簡(jiǎn)稱(chēng)“數(shù)采廠”)。
這是啥?為啥建?怎么采?一系列疑惑涌上我們心頭,我們決定去看一看。
當(dāng)然了,在去之前,我們對(duì)一家“數(shù)采廠”的工作流程,有一些非常刻板的想象——在堆滿服務(wù)器黑盒子的昏暗房間,掛著黑眼圈、發(fā)量堪憂的程序員,機(jī)械地敲著鍵盤(pán)輸入代碼……
錯(cuò)錯(cuò)錯(cuò)!當(dāng)《智能涌現(xiàn)》抵達(dá)智元機(jī)器人位于上海浦東的數(shù)采廠,發(fā)現(xiàn)現(xiàn)實(shí)和我們的想象,截然不同!
毫不夸張地說(shuō),這完全是美國(guó)電影《星球大戰(zhàn)》的片場(chǎng)!
《星球大戰(zhàn)》電影海報(bào);圖源網(wǎng)絡(luò)
在這座3000平方米的數(shù)采廠中,不同主題的房間占據(jù)了工廠的絕大部分面積,每個(gè)房間都精心還原了現(xiàn)實(shí)生活的物件布局,機(jī)器人就在不同的場(chǎng)景中執(zhí)行不同任務(wù)。
在臥室中,機(jī)器人乖巧地學(xué)習(xí)疊衣服。
機(jī)器人學(xué)習(xí)疊衣服;圖源:智元機(jī)器人
在餐桌前,機(jī)器人把餐具挨個(gè)擺放整齊。
機(jī)器人擺放餐盤(pán);圖源:《智能涌現(xiàn)》拍攝
機(jī)器人還要學(xué)會(huì)打餐各式菜肴,并且不會(huì)手抖。
機(jī)器人正在用勺子舀雞蛋;圖源:《智能涌現(xiàn)》拍攝
而在商超收銀臺(tái)前,機(jī)器人一只手拿掃碼器,另一只手拿著商品掃碼。
智元機(jī)器人正在學(xué)習(xí)商品掃碼;圖源:《智能涌現(xiàn)》拍攝
參觀結(jié)束后,《智能涌現(xiàn)》見(jiàn)到了數(shù)采廠負(fù)責(zé)人姚卯青,他也是智元機(jī)器人具身產(chǎn)品線總裁、研究院執(zhí)行院長(zhǎng),負(fù)責(zé)數(shù)據(jù)驅(qū)動(dòng)具身智能產(chǎn)品研發(fā)。
此前,姚卯青曾在Waymo、蔚來(lái)汽車(chē)等公司負(fù)責(zé)研發(fā)感知算法、端到端大模型。
姚卯青告訴《智能涌現(xiàn)》,機(jī)器人每完成一個(gè)動(dòng)作,就相當(dāng)于一條數(shù)據(jù),數(shù)據(jù)將通過(guò)機(jī)器人的主機(jī)上傳至云端,智元機(jī)器人團(tuán)隊(duì)將利用這些數(shù)據(jù)訓(xùn)練機(jī)器人的大模型,從而讓機(jī)器人真正掌握一項(xiàng)技能,比如沖咖啡、熨衣服等。
為了讓機(jī)器人快速學(xué)習(xí)技能,智元為它們安排了一對(duì)一教學(xué)老師——數(shù)據(jù)采集員,他們都是年輕有活力的小哥哥小姐姐,為了更好地教機(jī)器人完成動(dòng)作,采集員也需要肢體協(xié)調(diào),動(dòng)作標(biāo)準(zhǔn)。
數(shù)據(jù)采集員們手持設(shè)備,手把手地控制機(jī)器人完成抓、握、放等動(dòng)作。有時(shí)他們也會(huì)頭戴VR設(shè)備,更精準(zhǔn)地讓機(jī)器人模仿學(xué)習(xí)人類(lèi)動(dòng)作。
據(jù)了解,現(xiàn)在智元數(shù)據(jù)采集工廠投放了近百臺(tái)機(jī)器人,日均采集3-5w條數(shù)據(jù)。
而為了讓機(jī)器人更快在不同環(huán)境中掌握盡可能多的技能,智元數(shù)據(jù)采集工廠模擬了家庭、零售、服務(wù)業(yè)、餐飲、工廠五個(gè)場(chǎng)景。
在這里,你能發(fā)現(xiàn)商超內(nèi)不僅有各類(lèi)零食,還有葡萄酒、香煙,甚至連蔬果的價(jià)錢(qián)也標(biāo)好了。
智元機(jī)器人模擬的商超;圖源:《智能涌現(xiàn)》拍攝
也有一批機(jī)器人分散在各自“工位”,在桌前學(xué)習(xí)簡(jiǎn)單地疊衣服等技能。
機(jī)器人們?cè)诠の粚W(xué)習(xí)不同技能;圖源:《智能涌現(xiàn)》拍攝
據(jù)了解,數(shù)采廠面積還將增加1000平方米,可增加更多場(chǎng)景的同時(shí),也能根據(jù)客戶需要定制化模擬場(chǎng)景。
不過(guò),目前行業(yè)內(nèi)少見(jiàn)打造如此多樣場(chǎng)景的機(jī)器人公司,一個(gè)問(wèn)題隨之而來(lái):智元機(jī)器人下決心打造數(shù)據(jù)采集工廠,這一過(guò)程是如何展開(kāi)的?
為具身智能機(jī)器人,打造數(shù)據(jù)養(yǎng)料場(chǎng)
對(duì)于大多數(shù)初創(chuàng)公司而言,將高額資金建設(shè)一座工廠用于數(shù)據(jù)采集,風(fēng)險(xiǎn)無(wú)疑是巨大的,而智元機(jī)器人似乎沒(méi)有猶豫,僅僅用了一個(gè)多月就完成搭建數(shù)據(jù)采集工廠。
促使智元機(jī)器人不惜高成本打造數(shù)采廠,這背后,行業(yè)現(xiàn)存數(shù)據(jù)量在供給側(cè)上的巨大空白。
2024年6月,智元機(jī)器人決定研發(fā)機(jī)器人具身智能大模型,這需要海量數(shù)據(jù)以訓(xùn)練大模型。
姚卯青告訴《智能涌現(xiàn)》,機(jī)器人通過(guò)數(shù)百條數(shù)據(jù)學(xué)會(huì)一個(gè)技能,這些動(dòng)作往往都是長(zhǎng)程任務(wù),比如沖泡咖啡,熨衣服等。
他們?cè)噲D尋找行業(yè)內(nèi)的開(kāi)源數(shù)據(jù)庫(kù),但發(fā)現(xiàn)高質(zhì)量、統(tǒng)一格式的數(shù)據(jù)幾乎不存在。即使行業(yè)內(nèi)開(kāi)源了百萬(wàn)條由真實(shí)機(jī)器人收集的訓(xùn)練數(shù)據(jù)集,但是這些數(shù)據(jù)實(shí)際上由不同公司、不同型號(hào)規(guī)格的機(jī)器人采集,數(shù)據(jù)質(zhì)量較低,達(dá)不到智元的要求。
姚卯青表示,不同傳感器和形態(tài)的數(shù)據(jù)差異過(guò)大,將削弱整體訓(xùn)練效果,比如一個(gè)六軸機(jī)械臂的數(shù)據(jù)在七軸靈巧手機(jī)器人上幾乎無(wú)法復(fù)用,因此需要統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)。
而讓智元下決心建設(shè)數(shù)采廠,這個(gè)過(guò)程也很簡(jiǎn)單。
姚卯青表示,智元機(jī)器人采集了幾千條數(shù)據(jù)用于訓(xùn)練算法,雖然能讓機(jī)器人順利完成某個(gè)動(dòng)作,但是無(wú)法泛化——如果改變物體種類(lèi)、顏色甚至光線,都將影響機(jī)器人再次完成同樣的動(dòng)作。因此智元機(jī)器人決定建設(shè)工廠大規(guī)模采集數(shù)據(jù)。
不同房間的機(jī)器人正在采集數(shù)據(jù);圖源:《智能涌現(xiàn)》拍攝
數(shù)采廠未來(lái)將源源不斷為機(jī)器人學(xué)習(xí)提供數(shù)據(jù)養(yǎng)料。據(jù)了解,智元數(shù)據(jù)采集工廠投入使用兩個(gè)多月,就采集了超百萬(wàn)量級(jí)真機(jī)數(shù)據(jù)集,采集任務(wù)超一千種,每個(gè)任務(wù)都包含幾百條數(shù)據(jù),一些特別難的長(zhǎng)程任務(wù)可達(dá)幾千條。
“不久后我們將擁有超千萬(wàn)條數(shù)據(jù)。”姚卯青笑著說(shuō)。
探尋機(jī)器人的Scaling Law
在采集數(shù)萬(wàn)條機(jī)器人重復(fù)動(dòng)作后,智元機(jī)器人收獲了一些意外之喜:機(jī)器人能夠在未經(jīng)訓(xùn)練的情況下,根據(jù)要求控制倒水量;只教了機(jī)器人幾十次,就能學(xué)會(huì)疊褲子。
這正是智元機(jī)器人想要打造的機(jī)器人——能夠自主理解人類(lèi)指令和外部環(huán)境,并能適應(yīng)復(fù)雜的環(huán)境。
智元希望機(jī)器人能夠更換不同品牌、型號(hào)的咖啡機(jī)配件;圖源:《智能涌現(xiàn)》拍攝
過(guò)去數(shù)十年,機(jī)器人的控制往往依賴人們的預(yù)設(shè)規(guī)則,向機(jī)器人輸入情況描述以及應(yīng)對(duì)方式的規(guī)則,機(jī)器人在相應(yīng)情況下完成操作。然而機(jī)器人遇到的情況千變?nèi)f化,難以依靠提前輸入規(guī)則就能讓機(jī)器人應(yīng)對(duì)所有情況。
在大模型應(yīng)用爆發(fā)后,讓機(jī)器人從冰冷的軀體有了智力,能夠理解世界和人類(lèi)。而智元機(jī)器人正在研發(fā)的,是具備端到端大模型的機(jī)器人,通用能力更強(qiáng)且反應(yīng)速度更快。
機(jī)器人從接受指令到完成動(dòng)作通常有三個(gè)步驟:感知外部環(huán)境,做出決策、控制肢體執(zhí)行任務(wù),信息在這一鏈條傳遞中可能出現(xiàn)失真,從而影響機(jī)器人完成動(dòng)作。
但端到端大模型,不需要分模塊,更不依賴精準(zhǔn)測(cè)量,就像人類(lèi)超車(chē)前,不會(huì)下車(chē)測(cè)量?jī)绍?chē)之間的距離,再進(jìn)行超車(chē)。
智元機(jī)器人對(duì)端到端大模型機(jī)器人的設(shè)想是,機(jī)器人能夠接受人類(lèi)的復(fù)雜指令,比如讓機(jī)器人從遠(yuǎn)處取來(lái)手機(jī),或者從冰箱里拿一包薯片。這些指令不僅考驗(yàn)著機(jī)器人對(duì)任務(wù)的理解能力,還要求機(jī)器人能夠識(shí)別物體,并完成移動(dòng)到相應(yīng)地點(diǎn)、取物,返回,提交物品。
但是達(dá)到這一狀態(tài)并不容易。姚卯青表示,需要不斷向大模型投喂數(shù)據(jù),數(shù)據(jù)量越大,大模型在某一場(chǎng)景表現(xiàn)會(huì)更接近人類(lèi),他預(yù)估的數(shù)據(jù)量為幾千萬(wàn)條到1億條,機(jī)器人的Scaling Law遠(yuǎn)未到來(lái)。
《智能涌現(xiàn)》了解到,機(jī)器人需要軟硬件結(jié)合,僅有其中之一都難以讓機(jī)器人技術(shù)迅速發(fā)展。美國(guó)的硬件成本較高,因此美國(guó)機(jī)器人初創(chuàng)公司大多只研發(fā)算法。中國(guó)已有供應(yīng)鏈優(yōu)勢(shì),結(jié)合數(shù)據(jù)和自研的硬件,會(huì)讓算法、硬件、軟件快速迭代。
姚卯青相信,中國(guó)機(jī)器人技術(shù)的整體進(jìn)度已與美國(guó)不相上下,因?yàn)槊绹?guó)的人工成本比國(guó)內(nèi)高出十倍,還得從中國(guó)采購(gòu)各種零部件。
智元機(jī)器人用更低的成本和高效的迭代速度,拓展了場(chǎng)景模擬和數(shù)據(jù)采集規(guī)模,那些在美國(guó)機(jī)器人公司看來(lái)“遙不可及”的技術(shù),正在中國(guó)的數(shù)據(jù)采集工廠不斷流淌的數(shù)據(jù)中,一點(diǎn)點(diǎn)接近成為現(xiàn)實(shí)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.