文|邱曉芬 蘇建勛
編輯|蘇建勛
“外界對(duì)我們的認(rèn)知,和我們實(shí)際的業(yè)務(wù)狀況,確實(shí)存在一定差距。”在「星動(dòng)紀(jì)元」的北京辦公室中,創(chuàng)始人陳建宇對(duì)《智能涌現(xiàn)》表示。
「星動(dòng)紀(jì)元」成立于2023年8月,由清華大學(xué)交叉信息研究院助理教授陳建宇創(chuàng)辦。2025年7月7日,「星動(dòng)紀(jì)元」宣布完成近5億元A輪融資,由鼎暉CGV資本和海爾資本聯(lián)合領(lǐng)投,厚雪資本、華映資本、襄禾資本、豐立智能等跟投,老股東清流資本、清控基金等繼續(xù)追加投資。
盡管成立不過(guò)兩年,在機(jī)器人硬件業(yè)務(wù)上,「星動(dòng)紀(jì)元」接連發(fā)布了靈巧手、輪式、全尺寸人形等產(chǎn)品,這些動(dòng)向,讓不少人誤將星動(dòng)紀(jì)元視作一家機(jī)器人本體公司,甚至“覺(jué)得我們是一家靈巧手公司”。
這不是陳建宇希望公司被貼上的標(biāo)簽。
做一款通用、智能的機(jī)器人,是陳建宇在近十年前看到AlphaGo時(shí)就定下的目標(biāo),這意味著機(jī)器人不能只擁有軀干,更需要大腦去應(yīng)對(duì)不同場(chǎng)景。
“同時(shí)做大腦和本體,看起來(lái)可能會(huì)非常難,但對(duì)我來(lái)說(shuō),因?yàn)槲叶寄茏觯赃@是一個(gè)自然選擇。”陳建宇對(duì)《智能涌現(xiàn)》表示。
在一眾具身智能創(chuàng)始人中,陳建宇有著稀缺的交叉領(lǐng)域研究背景,他過(guò)往的學(xué)術(shù)方向兼具了“本體”與“大腦”。
2011年,陳建宇本科被保送到清華大學(xué)精密儀器系,這是國(guó)內(nèi)最早從事雙足人形機(jī)器人研究的單位之一;在美國(guó)加州大學(xué)伯克利分校就讀博士期間,他又著手研究MPC(模型預(yù)測(cè)控制)和端到端強(qiáng)化學(xué)習(xí),這也正是如今具身智能“大腦”的重要技術(shù)路線。
事實(shí)上,相比硬件層,陳建宇在機(jī)器人算法層面的研究成果更顯著,他曾提出新一代人形機(jī)器人學(xué)習(xí)算法框架DWL,獲得機(jī)器人領(lǐng)域難度最高的頂會(huì)RSS最佳論文提名獎(jiǎng);他首創(chuàng)的融合生成式世界模型的具身大模型算法VPP,被選為人工智能最頂級(jí)會(huì)議ICML的Spotlight論文。
在與《智能涌現(xiàn)》三個(gè)小時(shí)的采訪中,有一半的時(shí)間,陳建宇都在和我們討論算法和“大腦”。
但只有算法,或者只有本體,都不是陳建宇認(rèn)為可以實(shí)現(xiàn)“通用人形機(jī)器人”目標(biāo)的路徑。他需要的,是一套“體系”,其中包括軟硬兩套通用架構(gòu),其中:
軟件層面,「星動(dòng)紀(jì)元」發(fā)布了融合理解與生成式的VLA模型ERA-42。這一機(jī)器人大腦融合了世界模型,能夠?qū)κ澜缟疃壤斫獠?shí)時(shí)預(yù)測(cè);
硬件層面,「星動(dòng)紀(jì)元」正在開(kāi)發(fā)通用化、模塊化的機(jī)器人產(chǎn)品。讓機(jī)器人就像樂(lè)高一樣,根據(jù)不同場(chǎng)景需求靈活變化形態(tài),包括雙足、輪式、人形等。
此外,由于機(jī)器人當(dāng)下供應(yīng)鏈并不完善,「星動(dòng)紀(jì)元」從機(jī)器人本體最小單位開(kāi)始自研,如關(guān)節(jié)模組、控制單元、電機(jī)、減速器等。
當(dāng)軟、硬兩層架構(gòu)成熟后,讓機(jī)器人實(shí)現(xiàn)什么功能、長(zhǎng)成什么形態(tài),都會(huì)在業(yè)務(wù)拓展上更加敏捷,這也解釋了「星動(dòng)紀(jì)元」在本體上布局迅速的原因:目前其人形機(jī)器人業(yè)務(wù)已經(jīng)推出三款面向客戶的成熟產(chǎn)品:五指靈巧手XHand 1、輪式服務(wù)人形機(jī)器人Q5、全尺寸人形機(jī)器人STAR 1。
星動(dòng)紀(jì)元產(chǎn)品線 圖源:企業(yè)官方
在商業(yè)化策略上,陳建宇喜歡談到一個(gè)概念:“沿途下蛋”。比如他認(rèn)為,機(jī)器人靈巧手做出來(lái)了,可以先出售,不用苦苦等待整機(jī),這樣不僅有利于逐步拉低硬件的成本,還可以獲取一定的數(shù)據(jù),形成數(shù)據(jù)飛輪,反哺研發(fā)。
據(jù)陳建宇介紹,目前,在全球市值TOP 10的科技巨頭中,有9家是他們的客戶。截至6月,「星動(dòng)紀(jì)元」在2025年已累計(jì)交付超200臺(tái)產(chǎn)品,另有上百個(gè)訂單在量產(chǎn)交付中。在「星動(dòng)紀(jì)元」的客戶名單中,匯集了海爾智家、聯(lián)想、北自科技等……
近日,《智能涌現(xiàn)》與陳建宇進(jìn)行過(guò)一次長(zhǎng)談,他分享了關(guān)于機(jī)器人領(lǐng)域算法、本體產(chǎn)品、商業(yè)化的種種思考,當(dāng)中涉及到的陳建宇團(tuán)隊(duì)的多篇學(xué)術(shù)研究,我們也附錄至文后,以下為編輯后的訪談實(shí)錄:
做本體還是做大腦?“這從來(lái)不是一個(gè)問(wèn)題”
智能涌現(xiàn):從你之前在清華、伯克利的學(xué)術(shù)方向來(lái)看,你兼具了“本體”與“大腦”研究經(jīng)歷,這在具身圈子的創(chuàng)始人中算是比較少有的,那在創(chuàng)業(yè)方向的選擇上,當(dāng)初你是否會(huì)考慮只做本體/大腦?或者說(shuō),這個(gè)選擇對(duì)于你來(lái)說(shuō)是個(gè)問(wèn)題嗎?
陳建宇:這對(duì)我來(lái)說(shuō)從來(lái)不是一個(gè)問(wèn)題。主要基于兩個(gè)判斷:
第一,是否需要做本體和大腦?這個(gè)答案從一開(kāi)始就是確定的。如果只有本體沒(méi)有大腦,機(jī)器人就是廢鐵。如果只有大腦沒(méi)有本體,那就不是機(jī)器人了。我們最終要商業(yè)化閉環(huán),一定是軟硬一體交付到客戶。
第二,我們是否都有能力做?同時(shí)做大腦和本體,看起來(lái)可能會(huì)非常難,但對(duì)我來(lái)說(shuō),因?yàn)槲叶寄茏觯赃@是一個(gè)自然選擇。
從我個(gè)人近十年的經(jīng)歷來(lái)說(shuō),最開(kāi)始做過(guò)機(jī)器人硬件、機(jī)電系統(tǒng),到博士階段搞軟硬件結(jié)合、各種控制,再到后面搞AI領(lǐng)域。我搞機(jī)器人AI到現(xiàn)在也快十年了,最早從AlphaGo時(shí)代開(kāi)始,我就往這塊研究了,大概是 2016、2017 年左右。
智能涌現(xiàn):2022年AI大模型的出現(xiàn),給你之后的工作方向帶來(lái)哪些影響??
陳建宇:我們經(jīng)歷了幾個(gè)階段——
第一階段是,將語(yǔ)言模型與現(xiàn)有機(jī)器人工作相結(jié)合。2023年ChatGPT剛出來(lái)后,我就嘗試通過(guò)語(yǔ)言提示,讓ChatGPT假設(shè)自己是一個(gè)機(jī)器人,進(jìn)行任務(wù)規(guī)劃,例如規(guī)劃?rùn)C(jī)器人怎樣應(yīng)用其傳感器、先識(shí)別目標(biāo)再行動(dòng)等,那時(shí)它已經(jīng)能做得比較不錯(cuò)。基于此,我們完成了一篇論文,這是全球首篇結(jié)合語(yǔ)言模型和人形機(jī)器人的研究。
2023年做出全球第一篇大語(yǔ)言模型和機(jī)器人結(jié)合的工作,改進(jìn)了上層語(yǔ)言模型規(guī)劃與下層強(qiáng)化學(xué)習(xí)策略的對(duì)齊問(wèn)題。
第二階段是,受谷歌啟發(fā),2023年左右,我們開(kāi)始了端到端的VLA(Vision-Language-Action)雛形的研究,并成為國(guó)內(nèi)最早復(fù)現(xiàn)RT-2的團(tuán)隊(duì)。后來(lái),我們發(fā)現(xiàn)了實(shí)際操作中的一些問(wèn)題,提出了改進(jìn)方法,也就是現(xiàn)在大家熟知的快慢系統(tǒng)VLA的框架。
2024年9月,首次提出在VLM基礎(chǔ)上增加高頻動(dòng)作處理模塊的VLA方案,該架構(gòu)發(fā)表后,行業(yè)內(nèi)頭部機(jī)構(gòu),包括 Physical Intelligence的Pi0(2024年10月),F(xiàn)igure AI的Helix(2025年2月),NVIDIA的Groot N1等均陸續(xù)發(fā)布類似架構(gòu)的VLA模型。
RT-2本質(zhì)上是一個(gè)慢系統(tǒng),側(cè)重于思考,雖然能處理語(yǔ)言,但缺乏對(duì)動(dòng)作的有效處理。我們添加了一個(gè)快系統(tǒng),用于更細(xì)致地輸出更精細(xì)的動(dòng)作,并以更高頻率運(yùn)轉(zhuǎn)。
第三階段是,Sora視頻生成式模型的出現(xiàn)帶來(lái)的啟發(fā)。此前理解物理世界,如英偉達(dá)的仿真器,需手動(dòng)編寫物理規(guī)律,過(guò)程復(fù)雜且難以精準(zhǔn)建模。而Sora能生成細(xì)節(jié)豐富的視頻,如人走路、手抓物體、倒水等,機(jī)器人需要這樣的通用世界模型。
因此我們考慮將其引入機(jī)器人中,隨后我們提出了一系列融合生成式模型的VLA算法框架。
2024年9月發(fā)布PAD架構(gòu),首次提出融合世界模型,被NeurIPS收錄。
2024年12月發(fā)布VPP架構(gòu),首次提出預(yù)訓(xùn)練的視頻預(yù)測(cè)模型,并與PAD架構(gòu)進(jìn)行融合,被ICML收錄。
2024年9月,提出iRe-VLA框架,首次證明了強(qiáng)化學(xué)習(xí)可以用于訓(xùn)練端到端的具身大模型并提升其性能。
2025年1月,提出UP-VLA,一個(gè)統(tǒng)一理解與預(yù)測(cè)的具身模型,將理解、預(yù)測(cè)、策略學(xué)習(xí)融合,同時(shí)預(yù)測(cè)未來(lái)畫面與底層動(dòng)作,被ICML收錄。
我們的模型既能預(yù)測(cè)未來(lái),又能直接端到端控制機(jī)器人的具體動(dòng)作,包括每個(gè)關(guān)節(jié)的細(xì)微調(diào)整。
比如,杯子放到邊緣時(shí),機(jī)器人會(huì)擔(dān)心它掉下去,時(shí)刻在做預(yù)測(cè),這有助于提前做好準(zhǔn)備。我們已經(jīng)迭代了幾代大模型,提出了全球首創(chuàng)的融合生成式世界模型的VLA模型。
現(xiàn)在據(jù)我們所知,國(guó)外頂級(jí)的幾個(gè)團(tuán)隊(duì)也在做這件事,上個(gè)月Meta使用了類似的方法,融入了世界模型。
智能涌現(xiàn):聽(tīng)上去你們?cè)谀P秃退惴▽用娴幕I備非常充足,那現(xiàn)在還缺什么?
陳建宇:首先是數(shù)據(jù)。
語(yǔ)言模型開(kāi)始做的時(shí)候,網(wǎng)上的人類語(yǔ)言數(shù)據(jù)已經(jīng)非常多,你只需要把數(shù)據(jù)扒下來(lái),再做一些處理就可以。但對(duì)機(jī)器人來(lái)說(shuō),數(shù)據(jù)天然就沒(méi)有這么多。
Waymo公司最近把他們?cè)谂f金山的駕駛數(shù)據(jù)加進(jìn)去,雖然是很大的體量,但跟語(yǔ)言模型的數(shù)據(jù)量相比,差得太遠(yuǎn)了。如果按照這樣方式去收數(shù)據(jù),可能要收幾萬(wàn)年才能達(dá)到ChatGPT的訓(xùn)練數(shù)據(jù)量。
機(jī)器人的飛輪效應(yīng)比自動(dòng)駕駛更難實(shí)現(xiàn),因?yàn)樵诼访嫔吓艿能嚤緛?lái)就很多。
智能涌現(xiàn):現(xiàn)在很多公司用真機(jī)遙操作的方式產(chǎn)生數(shù)據(jù),你們會(huì)考慮采用嗎?
陳建宇:我們采用了組合方式。先是基于非常大量的視頻數(shù)據(jù)做預(yù)訓(xùn)練,訓(xùn)練出一個(gè)比較通識(shí)的基座,再用更精細(xì)的遙操數(shù)據(jù)來(lái)調(diào)整你的目標(biāo)。這樣對(duì)真機(jī)遙操作數(shù)據(jù)的需求量就會(huì)減少,而不是直接靠它去做底層的預(yù)訓(xùn)練。
智能涌現(xiàn):對(duì)于機(jī)器人“大腦”來(lái)說(shuō),什么樣的數(shù)據(jù)才是真正對(duì)模型有用的?
陳建宇:我們需要多樣性的數(shù)據(jù)。舉個(gè)開(kāi)車的例子,如果全是開(kāi)得特別好的數(shù)據(jù),模型可能就無(wú)法處理稍微危險(xiǎn)的情況。因此,一定要涵蓋各種各樣的不同場(chǎng)景。
比如,學(xué)習(xí)倒水的視頻,不能一直拿著同一款杯子,在同一位置進(jìn)行。不同姿態(tài)、水杯的形狀,都會(huì)對(duì)液體高度產(chǎn)生影響,所以我可能需要多一些維度,以提高其多樣性。
此外,并非所有情況都是白墻實(shí)驗(yàn)場(chǎng)景,還需要嘗試不同的背景。種類多、且每個(gè)種類收集大量數(shù)據(jù),這樣會(huì)更有效。
智能涌現(xiàn):機(jī)器人像人,這件事情很重要嗎?
陳建宇:人形是重要的,通過(guò)訓(xùn)練人形,你可以得到一個(gè)厲害的基礎(chǔ),然后你再把這個(gè)基礎(chǔ)降維到其他形態(tài)上。
雖然機(jī)器人未來(lái)形態(tài)可能不同,但很大一部分組件是共用的,包括大模型、關(guān)節(jié)模組,只是尺寸不同。硬件技術(shù)是統(tǒng)一的一套,軟件技術(shù)也是統(tǒng)一的一套,不論是機(jī)器人的手、足式還是輪式,不同的形體,其實(shí)用的是我們同一套軟硬結(jié)合的底座。
這也是我們?yōu)槭裁匆鋈诵螜C(jī)器人的原因。人形不是我們最終的目的,而是一個(gè)重要手段。通過(guò)與人類行為數(shù)據(jù)相結(jié)合,我們可以更好地利用這些數(shù)據(jù)。這也與我們的方法是呼應(yīng)的,因?yàn)槲覀兪菑暮A康娜祟愐曨l數(shù)據(jù)中直接學(xué)習(xí)。
智能涌現(xiàn):曾經(jīng)有機(jī)器人公司的創(chuàng)始人認(rèn)為,大腦不重要,本體重要,有本體就不在乎大腦,您怎么看?
陳建宇:訓(xùn)練AI的前提是先有本體,然后繼續(xù)采集數(shù)據(jù),再訓(xùn)練再調(diào)整,所以必然慢于本體。
作為初創(chuàng)公司,我們考慮“沿途下蛋”,本體研發(fā)出來(lái)后先出售。我們現(xiàn)在靈巧手產(chǎn)品的毛利非常高,做人形時(shí)也會(huì)拉低邊際成本。我們現(xiàn)在陸續(xù)對(duì)整機(jī)進(jìn)行規(guī)模化售賣,量產(chǎn)準(zhǔn)備也做好了,后面我們的模型和解決方案也會(huì)逐步商業(yè)化。
圖源:企業(yè)官方
智能涌現(xiàn):那只做大腦的公司,未來(lái)能力有可能比你們強(qiáng)嗎?
陳建宇:我認(rèn)為如果只做大腦,會(huì)缺少很多東西,商業(yè)化模式就會(huì)缺失,可能缺少很多供血方式,不一定能走得更遠(yuǎn)。而商業(yè)模式能帶來(lái)更多資源,從而能投入更多研發(fā),產(chǎn)品也能做得更好。這里面還有飛輪效應(yīng),通過(guò)商業(yè)化,提前積累數(shù)據(jù),飛輪效應(yīng)可能帶來(lái)很多好處。
只做大腦的公司,不確定性高。如果使用多種本體,那每打通一種本體都需重新做數(shù)據(jù)打通,耗費(fèi)大量精力,難以規(guī)模化。
大火的VLA路線,“L”的部分太重了
智能涌現(xiàn):VLA路線是大模型與具身智能的結(jié)合,引起了機(jī)器人和大模型領(lǐng)域?qū)W者的關(guān)注。不過(guò)現(xiàn)在行業(yè)里也有一些不同的聲音認(rèn)為,VLA范式存在著一定的局限,比如訓(xùn)練存在割裂的問(wèn)題、數(shù)據(jù)量難以與VLM匹敵等等。您本人如何看待如今大火的 VLA路線?
陳建宇:當(dāng)前的VLA模型,它的“L”部分(即Language,語(yǔ)言)太重了。模型首先是一個(gè)純語(yǔ)言模型,再拓展到視覺(jué),變成視覺(jué)語(yǔ)言模型。在這基礎(chǔ)上,再把動(dòng)作連接起來(lái),變成視覺(jué)語(yǔ)言動(dòng)作模型。
從進(jìn)化論的角度,這個(gè)過(guò)程是反過(guò)來(lái)的——生物是,先有爬蟲類的控制動(dòng)作部分,再逐步發(fā)展到大腦皮層,有了視覺(jué)和語(yǔ)言,語(yǔ)言是最后進(jìn)化出來(lái)的。事實(shí)上,很多訓(xùn)練好的猩猩和猴子也能做很靈巧的工作,但它們不需要語(yǔ)言。
現(xiàn)在,我們反過(guò)來(lái)了,先有了語(yǔ)言,再逐步補(bǔ)上其他部分。
我覺(jué)得對(duì)于很多應(yīng)用來(lái)說(shuō),(語(yǔ)言)其實(shí)是不必要的。對(duì)于機(jī)器人,第一步就是要先開(kāi)始干活,重要的是它要做什么動(dòng)作。我認(rèn)為這存在一定問(wèn)題,所以我們最近在研究,在預(yù)訓(xùn)練階段,同時(shí)訓(xùn)練語(yǔ)言視覺(jué)和動(dòng)作,而非先專注于語(yǔ)言。這樣應(yīng)該能取得更好的效果。
智能涌現(xiàn):對(duì)于機(jī)器人大腦,有的企業(yè)會(huì)根據(jù)場(chǎng)景或者具體功能,分成好多層模型來(lái)做,您怎么看待這種技術(shù)方式?
陳建宇:大家會(huì)按兩個(gè)維度為機(jī)器人大腦做分層。一個(gè)是縱向維度,比如感知模型、預(yù)測(cè)模型、控制模型。此前的無(wú)人車或者機(jī)器人都是沿著這個(gè)pipeline逐步發(fā)展的。另一個(gè)是橫向的維度,按任務(wù)類別去訓(xùn)練,一類任務(wù)訓(xùn)一個(gè)模型。
只要?jiǎng)澐至藢哟沃螅鼈冎g就很難形成聚合效果。比如,按橫向任務(wù)來(lái)劃分,會(huì)使A任務(wù)和B任務(wù)形不成合力,即使切分成1000個(gè)任務(wù)并全部完成,甚至更多,也不可能涌現(xiàn)出新東西。涌現(xiàn),一定是很多任務(wù)綜合在一起才行。
而我們是相對(duì)統(tǒng)一的,把縱向和橫向都合并了。目前,我們已發(fā)展到通過(guò)統(tǒng)一模型微調(diào)學(xué)習(xí)一個(gè)垂直任務(wù),比單獨(dú)訓(xùn)練單任務(wù)的小模型都更好,且更快。
智能涌現(xiàn):強(qiáng)化學(xué)習(xí)是推動(dòng)大模型推理能力躍升的核心,那么您認(rèn)為強(qiáng)化學(xué)習(xí)之于機(jī)器人的意義是什么?
陳建宇:目前VLA實(shí)際上還沒(méi)有這樣的強(qiáng)化學(xué)習(xí)機(jī)制。本質(zhì)上,VLA仍是一個(gè)surprise learning,是一個(gè)離線學(xué)習(xí)過(guò)程。類似于,你先觀察很多人怎么做,然后直接學(xué)習(xí)。
以打乒乓球?yàn)槔琕LA相當(dāng)于教練手把手教你幾遍,然后你就直接去打,可能還是打不好;
而強(qiáng)化學(xué)習(xí)是,首先你要看別人怎么打,教練再教你更精細(xì)的動(dòng)作,之后你還要自己不斷調(diào)整練習(xí),嘗試打出好球,這也是進(jìn)一步與物理世界對(duì)齊的過(guò)程。如果沒(méi)有這一步,很多比較精細(xì)、復(fù)雜的工作你可能就做不了。
談產(chǎn)品、場(chǎng)景、和機(jī)器人的未來(lái)
智能涌現(xiàn):現(xiàn)在投資人和行業(yè)對(duì)你們的定位和觀察似乎存在差距,不知您是否有同感?
陳建宇:外界對(duì)我們的認(rèn)知,和我們實(shí)際的業(yè)務(wù)狀況,確實(shí)存在一定差距。我們是搭建了一套比較全面的體系,這套體系是通用的,可能有的人沒(méi)有找到其中的邏輯,也可能我們之前沒(méi)有充分展示。
智能涌現(xiàn):你所說(shuō)的“體系”是什么?
陳建宇:分為軟件和硬件兩部分。如果一句話描述硬件模塊,就像搭樂(lè)高一樣去搭建機(jī)器人。我們從硬件的最小單位硬件開(kāi)始自研,如機(jī)器人的關(guān)節(jié)模組、電機(jī)、減速器、控制器等;實(shí)現(xiàn)了從零件、到部件的模塊化、通用化。
比如我們手是一個(gè)模塊,可以適配于不同的機(jī)器人,甚至里面的關(guān)節(jié)鍵拆下后可以用于重新組合成另一款機(jī)器人。我們的大腦是端到端通用大腦,適用于不同任務(wù),可以迅速調(diào)整到不同的本體上。
圖源:企業(yè)官方
智能涌現(xiàn):有了這套底座后,未來(lái)形態(tài)可擴(kuò)展嗎?
陳建宇:非常可擴(kuò)展,任意機(jī)器人都可以,無(wú)非是有幾條胳膊、幾個(gè)肘、幾條腿,以及各有多少自由度等。
智能涌現(xiàn):好像把機(jī)器人模塊化了,可以根場(chǎng)景隨意變化形態(tài),那怎么做產(chǎn)品形態(tài)定義?
陳建宇:人形可能是機(jī)器人終局情況下數(shù)量最多的,但是具體的場(chǎng)景下,需求是不同的,所以我們會(huì)需要不同的形態(tài)。
比如,如果你的場(chǎng)景需要上下樓梯,就需要雙足的形態(tài),如果完全是平地,輪式就夠了,如果是要在某個(gè)3C工廠里替代一個(gè)固定的工位,可能只要一個(gè)上半身也就夠了。
智能涌現(xiàn):現(xiàn)在終端出貨量有多少?
陳建宇:超過(guò)200臺(tái),客戶也涵蓋得很廣,全球市值前十的科技巨頭里,有九家都是我們的客戶,有的一家就買幾十個(gè),都是拿來(lái)用的。
智能涌現(xiàn):挑選場(chǎng)景的標(biāo)準(zhǔn)大概是什么?
陳建宇:高價(jià)值、可復(fù)用。
高價(jià)值,指的是這個(gè)“人”的薪水有多高,就說(shuō)明這個(gè)場(chǎng)景的價(jià)值有多高,會(huì)在能力邊界內(nèi)找盡量高價(jià)值的任務(wù)和場(chǎng)景。現(xiàn)在是面向兩類高價(jià)值場(chǎng)景,一個(gè)是工業(yè),一個(gè)是服務(wù)。
我們工業(yè)領(lǐng)域的產(chǎn)品被稱之為人形機(jī)器人中的六邊形戰(zhàn)士,手很靈巧,跑跳運(yùn)動(dòng)能力非常強(qiáng),力量、敏捷和智力拉滿;另一款服務(wù)機(jī)器人很小巧,我們會(huì)重視它的外觀、擬人理論性和交互,這是服務(wù)業(yè)特有的屬性。
智能涌現(xiàn):目前你們的機(jī)器人產(chǎn)品智能化水平如何?
陳建宇:我們把產(chǎn)品根據(jù)智能化劃分為兩個(gè)級(jí)別,一個(gè)是產(chǎn)品化級(jí)別,一個(gè)是demo級(jí)別。
圖源:企業(yè)官方
我們的demo產(chǎn)品可以使用螺絲槍打螺釘、拿起掃碼槍掃碼,或者拿起勺子去舀水,成功率已經(jīng)很高。
而產(chǎn)品化級(jí)別的產(chǎn)品,智能化程度要求更嚴(yán)苛,我們?cè)谧鑫锪鲌?chǎng)景,比如找標(biāo)簽、掃碼、分揀等,現(xiàn)在已經(jīng)能達(dá)到不錯(cuò)的成功率,也正在真實(shí)場(chǎng)景中落地。
智能涌現(xiàn):除了物流,你還看好哪個(gè)場(chǎng)景?
陳建宇:下一個(gè)就是制造領(lǐng)域,因?yàn)橹圃焐婕案?xì)的操作。物流主要是移動(dòng)物品或搬箱子,更簡(jiǎn)單一些,而制造則更復(fù)雜,比如需使用不同工具找標(biāo)簽、或者做更復(fù)雜的手部靈巧操作翻面等。
制造領(lǐng)域里,星動(dòng)紀(jì)元旗下的機(jī)器人STAR 1實(shí)訓(xùn)搬運(yùn)工作
智能涌現(xiàn):關(guān)于人形機(jī)器人,現(xiàn)在的零部件大部分是通用的,還是要自己造開(kāi)模?
陳建宇:我們不會(huì)自己去加工具體零部件,不然成本算不過(guò)來(lái)。
不過(guò),我們自研設(shè)計(jì)非常深入,到電機(jī)這一層,電機(jī)、齒輪、控制器電路板、驅(qū)動(dòng)器等全部都是我們自己設(shè)計(jì),圖紙都是我們?cè)O(shè)計(jì)的。
智能涌現(xiàn):在生產(chǎn)制造場(chǎng)景中,哪些工作人類仍無(wú)法被機(jī)器人替代?若所有生產(chǎn)制造場(chǎng)景均能被替代,將會(huì)如何?
陳建宇:我認(rèn)為純流產(chǎn)線上的人力密集型工作,這些工作理論上都能被替代,但目前難以實(shí)現(xiàn)。如果被替代,將帶來(lái)極大的社會(huì)結(jié)構(gòu)變革。機(jī)器人先替代苦活、累活、危險(xiǎn)活等,因?yàn)楝F(xiàn)在越來(lái)越多的年輕人不愿從事這些工作。
我認(rèn)為這有助于將人類從枯燥勞動(dòng)中解放出來(lái),讓人們從事更有價(jià)值的工作。這種替代也將帶來(lái)更高的生產(chǎn)效率,使所有物品變得更便宜。
未來(lái)機(jī)器人本身將成為一種終端產(chǎn)品,并可能是規(guī)模最大的,可能介于手機(jī)和汽車之間。未來(lái)家庭可能會(huì)擁有一到兩個(gè)家用機(jī)器人或終端機(jī)器人,這些機(jī)器人將提供服務(wù)和情緒價(jià)值,這種形態(tài)的產(chǎn)品在未來(lái)5年就會(huì)開(kāi)始出現(xiàn)。
機(jī)器人大戰(zhàn)前,先儲(chǔ)備糧草
智能涌現(xiàn):融資目前對(duì)你來(lái)說(shuō)的意義是什么?
陳建宇:可以想象未來(lái)競(jìng)爭(zhēng)會(huì)比較激烈,要提前做好準(zhǔn)。現(xiàn)在是因?yàn)檫€沒(méi)有開(kāi)始打商業(yè)化的大仗。
現(xiàn)在機(jī)器人領(lǐng)域融資的規(guī)模和智能汽車、電動(dòng)汽車、大模型相比,少很多。但未來(lái),機(jī)器人的制造規(guī)模可能要達(dá)到電動(dòng)汽車的水平,未來(lái),機(jī)器人的模型規(guī)模可能要到大模型的水平。
智能涌現(xiàn):海爾能夠給予我們的戰(zhàn)略幫助會(huì)是哪些層面?(注:海爾是本輪投資方)
陳建宇:首先是場(chǎng)景會(huì)跟我們?nèi)ス蚕恚浯危a(chǎn)品定義是現(xiàn)階段就能進(jìn)行,比如零售,把機(jī)器人放到他們的門店里,利用我們的機(jī)器人產(chǎn)品做引流、導(dǎo)覽、指示,服務(wù)等。
智能涌現(xiàn):機(jī)器人在家庭場(chǎng)景的應(yīng)用,能幾年之內(nèi)實(shí)現(xiàn)?
陳建宇:我覺(jué)得是漸進(jìn)式的。如果快的話,可能3-5年能看到一些雛形,比如說(shuō)在一些高凈值的家庭里面。但對(duì)于普通家庭,要求更高,他們需要既普適又便宜的機(jī)器人。
智能涌現(xiàn):據(jù)我所知,美的海爾也早就說(shuō)要進(jìn)入機(jī)器人領(lǐng)域,你們和大公司之間是怎樣的關(guān)系?
陳建宇:商業(yè)中都是競(jìng)爭(zhēng)與合作并存,要辯證地看待競(jìng)爭(zhēng)與合作。如果是互聯(lián)網(wǎng)大廠,我們可以成為硬件供應(yīng)商。如果是傳統(tǒng)制造類,我們則可能成為軟件供應(yīng)商。
智能涌現(xiàn):汽車公司都有很大的自動(dòng)駕駛團(tuán)隊(duì),現(xiàn)在都在走端到端路線,硬件又搞了很久,未來(lái)汽車行業(yè)會(huì)都走到機(jī)器人賽道上嗎?
陳建宇:我覺(jué)得機(jī)器人會(huì)是智能汽車的延伸,但是不會(huì)是所有人都選這個(gè)。大企業(yè)制定戰(zhàn)略通常較為嚴(yán)謹(jǐn),前期可能投入較少進(jìn)行跟進(jìn)和研究。
目前,這些大廠并沒(méi)有真正大力投入機(jī)器人,還是在做技術(shù)儲(chǔ)備,人數(shù)投入跟我們創(chuàng)業(yè)公司差不多。
智能涌現(xiàn):大模型公司現(xiàn)在已經(jīng)趨近于共識(shí),這個(gè)領(lǐng)域不會(huì)有很多玩家,但在機(jī)器人似乎更允許多個(gè)玩家存在?
陳建宇:是的,因?yàn)闄C(jī)器人更豐富、更多樣,不像基座大語(yǔ)言模型那樣統(tǒng)一。機(jī)器人會(huì)有很多不同的形態(tài),而且涉及硬件制造,硬件迭代比軟件慢。
機(jī)器人的市場(chǎng)足夠大,細(xì)分更細(xì),存在的玩家也更多。與語(yǔ)言模型不同,語(yǔ)言模型一旦推出,所有人都能瞬間使用,更容易形成壟斷。而機(jī)器人領(lǐng)域更加基礎(chǔ)、分散,有更多的公司存活。
陳建宇教授的過(guò)往研究成果附錄:
2023年做出全球第一篇大語(yǔ)言模型和機(jī)器人結(jié)合的工作,改進(jìn)了上層語(yǔ)言模型規(guī)劃與下層強(qiáng)化學(xué)習(xí)策略的對(duì)齊問(wèn)題。相關(guān)論文:Doremi: Grounding language model by detecting and recovering from plan-execution misalignment(http://arxiv.org/abs/2307.00329v1),被機(jī)器人頂會(huì)IROS收錄。
2024年9月,首次提出在VLM基礎(chǔ)上增加高頻動(dòng)作處理模塊的VLA方案,發(fā)表了HiRT論文——HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers(https://arxiv.org/abs/2410.05273)。
2024年9月發(fā)布PAD架構(gòu),首次提出融合世界模型,被NeurIPS收錄。 相關(guān)論文:Prediction with Action: Visual Policy Learning via Joint Denoising Process(https://arxiv.org/abs/2411.18179)
2024年12月發(fā)布VPP架構(gòu),首次提出預(yù)訓(xùn)練的視頻預(yù)測(cè)模型,并與PAD架構(gòu)進(jìn)行融合,被ICML收錄。相關(guān)論文:Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations, ICML 2025 Spotlight(https://arxiv.org/abs/2412.14803)
2024年9月,提出iRe-VLA框架,首次證明了強(qiáng)化學(xué)習(xí)可以用于訓(xùn)練端到端的具身大模型并提升其性能。相關(guān)論文:Improving Vision-Language-Action Model with Online Reinforcement Learning(https://sites.google.com/view/ire-vla)
2025年1月,提出UP-VLA,一個(gè)統(tǒng)一理解與預(yù)測(cè)的具身模型,將理解、預(yù)測(cè)、策略學(xué)習(xí)融合,同時(shí)預(yù)測(cè)未來(lái)畫面與底層動(dòng)作,被ICML收錄。相關(guān)論文:UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent(https://arxiv.org/abs/2501.18867)
end
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.