新智元報道
編輯:編輯部
【新智元導(dǎo)讀】2025年,全球具身智能賽道爆火,VLA模型成為了絕對的C位。從美國RT-2的開創(chuàng)性突破,到中國最新FiS-VLA「快慢雙系統(tǒng)」,VLA正以光速硬核進(jìn)化。
2025年,具身智能可真是太火了。
而提到具身智能,不得不提——視覺語言動作模型(Vision-Language-Action,VLA)。
作為具身智能的核心驅(qū)動力,VLA正席卷全球,成為研究人員們的「新寵」。
從產(chǎn)業(yè)界到學(xué)術(shù)界,全球的主流公司與研究機(jī)構(gòu),都在加速向這一方向靠攏,達(dá)成了罕見的共識。
在硅谷,諸如谷歌DeepMind、Figure AI、Skild AI、Physical Intelligence等行業(yè)領(lǐng)軍者,早已開始發(fā)力押注VLA的未來。
幾周前,谷歌曾發(fā)布了首個離線VLA模型,讓機(jī)器人不用聯(lián)網(wǎng),即可精準(zhǔn)操控完成任務(wù)。
與此同時,中國在這一賽道上的表現(xiàn)也毫不遜色。
近日,國內(nèi)具身智能代表性創(chuàng)企——智平方,聯(lián)合頭部高校發(fā)布了一款全新的VLA模型——Fast-in-Slow(FiS-VLA)。
這款模型最大的亮點,是將雙系統(tǒng)模塊中的「快系統(tǒng)」嵌入「慢系統(tǒng)」,打破了機(jī)器人「操控效率」與「推理能力」不可兼得的困局。
論文鏈接: https://arxiv.org/pdf/2506.01953
項目主頁: https://fast-in-slow.github.io/
代碼鏈接: https://github.com/CHEN-H01/Fast-in-Slow
從放置水果到疊毛巾,F(xiàn)iS-VLA加持的機(jī)器人不僅秒懂指令,還能以驚人速度流暢執(zhí)行。
更令人振奮的是,自今年以來,與VLA相關(guān)的學(xué)術(shù)論文呈爆發(fā)式增長。
根據(jù)谷歌學(xué)術(shù)統(tǒng)計,VLA相關(guān)結(jié)果共有2820條;而今年,就有1390條結(jié)果,幾乎占全部結(jié)果的1/2。
放眼全球,VLA的熱潮不止于此。
VLA技術(shù)加速機(jī)器人從實驗室走向物理世界,并催生出了各具特色的技術(shù)分支。
這不僅印證了VLA的巨大潛力,也預(yù)示著,它正在重塑智能機(jī)器人與人類交互的未來。
或許你一定好奇,VLA為何成為了具身智能的「新范式」?
VLA超進(jìn)化
谷歌RT-2成關(guān)鍵節(jié)點
若想破除這一疑問,前提是必須理解VLA模型的重要性。
機(jī)器人要像人類一樣,既能理解復(fù)雜指令,又能靈活應(yīng)對環(huán)境,快速行動——
目前,端到端VLA大模型是最符合第一性原理的解題思路。
作為AI領(lǐng)域的一顆新星,VLA模型將視覺、語言、動作三種模態(tài)融在一體,讓具身AI不僅能「看懂」世界、「聽懂」指令,還能執(zhí)行任務(wù)。
想象一下,一個機(jī)器人能理解「將物品放置在冰箱」,并與同伴「共腦」合作,精準(zhǔn)完成抓取放置任務(wù)——
這就是VLA的魅力!
與傳統(tǒng)對話式AI不同,VLA通過統(tǒng)一的模型架構(gòu),將多模態(tài)信息整合處理,實現(xiàn)了從感知到動作的「端到端閉環(huán)控制」。
正是它的出現(xiàn),讓機(jī)器人從過去的預(yù)編程、簡單遙控的「機(jī)械執(zhí)行者」,進(jìn)化為真正的通用具身智能。
那么,VLA究竟何時出現(xiàn)的?又是如何煉成的?
2022年,谷歌Robotics團(tuán)隊的RT-1橫空出世,這是接近VLA的機(jī)器人基礎(chǔ)模型的代表工作之一。
論文鏈接:https://arxiv.org/abs/2212.06817
這是機(jī)器人領(lǐng)域,首個大規(guī)模訓(xùn)練的Transformer模型。
RT-1通過模仿學(xué)習(xí),在多樣化的機(jī)器人演示數(shù)據(jù)上訓(xùn)練,具備了跨任務(wù)的泛化能力,比如它能完成「把可樂放入冰箱」多步驟任務(wù)。
它首次將「預(yù)訓(xùn)練+微調(diào)」的范式引入了機(jī)器人控制領(lǐng)域,為后續(xù)VLA模型的提出奠定了基礎(chǔ)。
RT-1的出現(xiàn),開創(chuàng)了多任務(wù)的「視覺-動作」模型。
既然「預(yù)訓(xùn)練+微調(diào)」范式行得通,為什么要重新訓(xùn)練大模型?
與純文本任務(wù)不同,機(jī)器人系統(tǒng)必須具備對現(xiàn)實世界物理規(guī)律、環(huán)境上下文的深入理解,并能執(zhí)行具體動作。
這些問題遠(yuǎn)遠(yuǎn)超出了語言模型最初的設(shè)計范疇:它不僅要「理解文字」,更要「執(zhí)行意圖」。
隨后,研究者嘗試將語言融入機(jī)器人系統(tǒng)。但這些方法通常存在功能有限、適用范圍狹窄或為開環(huán)系統(tǒng),難以實現(xiàn)實時互動與基于反饋的動態(tài)調(diào)整。
2023年,微軟提出了ChatGPT for Robotics,首次將對話大模型應(yīng)用于機(jī)器人,實現(xiàn)了零樣本任務(wù)規(guī)劃。
論文鏈接:https://arxiv.org/abs/2306.17582
這時,只需動動嘴皮子——我想用積木塊拼出微軟logo,模型瞬間領(lǐng)會完成拼圖。
這項研究,將LLM用于機(jī)器人控制的設(shè)想變成現(xiàn)實,并在機(jī)器人領(lǐng)域,引領(lǐng)了一種全新研究風(fēng)潮——「LLM+機(jī)器人」。
不過,它也暴露了語言模型在低級動作控制上的局限,如何讓語言與動作的深度融合,成為下一個突破的難題。
幾乎同時,谷歌帶來了PaLM-E,首次將視覺感知能力融入超大語言模型PaLM中。
PaLM-E最大參數(shù)達(dá)5620億,實現(xiàn)了視覺問答、圖像描述、機(jī)器人操作規(guī)劃的統(tǒng)一。
在開放領(lǐng)域視覺問答上,PaLM-E刷新了SOTA,還將互聯(lián)網(wǎng)規(guī)模的語義知識遷移到機(jī)器人控制中,為后續(xù)多模態(tài)模型提供了關(guān)鍵的設(shè)計范式。
VLA范式正式確立
經(jīng)過四個多月迭代后,23年7月,谷歌DeepMind的RT-2正式上線,明確提出了VLA概念。
RT-2首創(chuàng)性地將機(jī)器人動作離散化為文本token,與視覺語言數(shù)據(jù)聯(lián)合訓(xùn)練。
得益于此,它展現(xiàn)出了強(qiáng)大的泛化能力,在從未見過的物體上完成指令響應(yīng)、理解數(shù)字符號和多步推理。
RT-2在未見任務(wù)上實現(xiàn)了超50%的成功率
這一刻,標(biāo)志著VLA范式的正式確立,開啟了「大模型驅(qū)動機(jī)器人控制」的新方向。
技術(shù)追逐賽加速
中國具身企業(yè)國際舞臺首發(fā)聲
自此之后,國內(nèi)外具身智能玩家競相加速,掀起了一場激烈的VLA技術(shù)追逐戰(zhàn)。
2024年6月,中國隊提出創(chuàng)新方法,破解VLA領(lǐng)域的長期痛點,迅速嶄露頭角。
眾所周知,機(jī)器人操作基本目標(biāo)之一是理解視覺場景并執(zhí)行動作。盡管RT-2這類VLA可以處理一些基本任務(wù),但還有兩個痛點:
(1)面對復(fù)雜任務(wù),推理能力不足;
(2)在微調(diào)和推斷上,算力成本太高。
而狀態(tài)空間序列模型Mamba,只有線性復(fù)雜度,但也實現(xiàn)了情境感知推理。
那為什么不把Mamba引入VLA,解決之前的痛點?
在這一關(guān)鍵時刻,智平方作為國內(nèi)具身智能領(lǐng)域的領(lǐng)先者,展現(xiàn)了其技術(shù)創(chuàng)新的深厚實力。
他們與北大等頂尖機(jī)構(gòu)一起,率先將Mamba引入VLA架構(gòu)模型,推出了革命性的輕量化結(jié)構(gòu)RoboMamba。
這一突破,直接讓VLA模型實現(xiàn)了效率與推理泛化能力的重大飛躍。
論文鏈接:https://arxiv.org/abs/2406.04339
具體而言,RoboMamba將視覺編碼器與Mamba大模型融合,實現(xiàn)視覺常識理解與機(jī)器人專項推理能力。
相比之前的VLA模型,RoboMamba不僅復(fù)雜度降低了,還顯著提升了長序列推理能力。
而且RoboMamba僅微調(diào)0.1%參數(shù),即可實現(xiàn)SE(3)位姿的預(yù)測與操控能力。
在模擬和真實環(huán)境下,推理速度是主流模型的3倍,成為VLA實時性挑戰(zhàn)的突破口。
RoboMamba證明了,狀態(tài)空間建模范式在VLA中的高效性,引領(lǐng)了Transformer替代方案的新探索。
這一突破性成功入選了人工智能頂級盛會 NeurIPS 2024,也創(chuàng)造了中國具身公司在VLA領(lǐng)域國際舞臺的首次發(fā)聲!
緊接著,同月,來自Physical Intelligence、斯坦福、谷歌等機(jī)構(gòu)的團(tuán)隊,則針對RT系列模型所暴露出的問題,開源了一款全新的大規(guī)模VLA模型——OpenVLA。
此前的RT系列模型雖展示了VLA模型的通用泛化能力,但其對物理空間的表達(dá)能力,即視覺編碼器(Vision Encoder)在精細(xì)化識別上,表現(xiàn)不佳。
舉個栗子,讓RT-2機(jī)器人分類同色積木塊、將可樂放在霉霉身邊的任務(wù)中,表現(xiàn)并不理想
OpenVLA有7億參數(shù),基于Llama 2骨干構(gòu)建,融合了DINOv2和SigLIP視覺特征,并在97萬個真實機(jī)器人示教數(shù)據(jù)集上完成了預(yù)訓(xùn)練。
令人意想不到的是,OpenVLA在29種操作任務(wù)中,碾壓55億參數(shù)的RT-2-X,成功率高出16.5%。
論文鏈接:https://arxiv.org/abs/2406.09246
OpenVLA僅以1/7的體積,就實現(xiàn)了性能超越,還能在消費級GPU上快速適配各種任務(wù)。
比如,讓它把香蕉放在盤子里,OpenVLA就會直接將其放在盤子中間。
最強(qiáng)泛化?
國產(chǎn)原創(chuàng)「混合架構(gòu)」出圈
繼RoboMamba、OpenVLA推動了模型開源和效率提升之后,Physical Intelligence提出的π系列模型重新思考一個問題:
如何用最簡結(jié)構(gòu),實現(xiàn)VLA最強(qiáng)泛化?
2024年10月31日,π?,一款通用機(jī)器人流匹配策略模型誕生。
在預(yù)訓(xùn)練視覺語言模型基礎(chǔ)上,π?疊加了流匹配架構(gòu),集成了互聯(lián)網(wǎng)級語義知識,同時還支持單臂、雙臂、移動操作臂等多種靈巧機(jī)器人的連續(xù)動作建模。
在洗衣折疊、桌面清潔、裝配盒子等復(fù)雜任務(wù)中,π?展現(xiàn)出零樣本執(zhí)行、自然語言指令遵循、快速微調(diào)新技能的能力。
π?架構(gòu)
得益于其「流匹配+預(yù)訓(xùn)練語義模型」的架構(gòu),為高自由度連續(xù)控制場景提供了全新路徑。
與此同時,π?還承接了RT-2對語義泛化的關(guān)注,進(jìn)一步推動了AI社區(qū)對VLA模型研究。
時隔半年,π?.?作為初代增強(qiáng)版發(fā)布,更加聚焦開放世界泛化能力的提升,強(qiáng)化了在未見環(huán)境中的適應(yīng)能力。
π?.?在未見家庭場景中,無需訓(xùn)練即可高質(zhì)量完成清潔任務(wù),處理從模糊指令到詳細(xì)動作的多種輸入。
它的誕生,真正實現(xiàn)了在不犧牲精度前提下,提升了「任務(wù)泛化」和「環(huán)境泛化」的性能,標(biāo)志著VLA已具備了向現(xiàn)實世界大規(guī)模推廣的能力。
π系列僅是VLA模型技術(shù)模型技術(shù)分支的一種:采用擴(kuò)散架構(gòu)。
除此之外,隨著不同玩家的布局,在VLA全新范式下,已經(jīng)分化出不同的技術(shù)路徑。
有的采用自回歸架構(gòu),有的基于擴(kuò)散模型的動作解碼器,還有的兩種架構(gòu)兼用。
融合自回歸+擴(kuò)散,既要穩(wěn)又要學(xué)得快
HybridVLA,就是混合架構(gòu)的代表作之一。
這背后,依舊由中國團(tuán)隊主導(dǎo),他們通過原創(chuàng)突破攻克了復(fù)雜環(huán)境下魯棒性與泛化能力平衡的難題,開啟了混合動作生成的新方向。
通過自回歸和Diffusion+Action Chunk架構(gòu),HybridVLA統(tǒng)一了視覺-語言-動作的協(xié)作生成。
論文地址:https://arxiv.org/abs/2503.10631
如下圖所示,過去基于擴(kuò)散的VLA方法僅在LLM后端附加獨立擴(kuò)散頭(圖1a)。
而新方法創(chuàng)新性地提出協(xié)同訓(xùn)練方案,將擴(kuò)散去噪過程無縫融入單一LLM主干的自回歸流程(圖1b)。
不同VLA中LLM和Diffusion的融合方法對比
具體實現(xiàn)上,針對離散自回歸token與連續(xù)擴(kuò)散隱變量在表征層面的異構(gòu)性,研究者設(shè)計了系統(tǒng)化的token序列組織形式,利用特定標(biāo)記token實現(xiàn)多模態(tài)輸入、擴(kuò)散token與自回歸token的有機(jī)銜接。
從結(jié)果上看,HybridVLA在多個仿真和真實世界任務(wù)中超越了現(xiàn)有的SOTAVLA方法,同時被PI作為baseline引用和對比,這也是PI唯一對比過的中國VLA模型。
值得注意的是,該Paper的一作劉家銘博士也是「北大—智平方具身智能聯(lián)合實驗室」的研究員。
最終,機(jī)器人實現(xiàn)了全身控制,包括從桌面單臂到全域觸達(dá)&全身動作,因而適用范圍也得到了指數(shù)級拓展。
盡管業(yè)界在VLA模型的探索成果頗多,但傳統(tǒng)方法仍未解決具身智能領(lǐng)域核心矛盾——
視覺-語言模型(VLM)具備很強(qiáng)的泛化能力,但處理速度較慢;
而機(jī)器人視覺-運動策略雖然反應(yīng)迅速,卻缺乏通用性。
雙系統(tǒng)
泛化性和執(zhí)行效率全都要
受到卡尼曼雙系統(tǒng)理論(Kahneman’s theory)的啟發(fā),Helix研究者提出了「雙系統(tǒng)架構(gòu)」:
由基于VLM的System 2處理高層推理,另一個獨立的System 1負(fù)責(zé)實時動作執(zhí)行。
Daniel Kahneman:諾貝爾經(jīng)濟(jì)學(xué)獎得主。他將人類思維劃分為兩種模式:「系統(tǒng)1」反應(yīng)快速、依賴本能和情緒;「系統(tǒng)2」則更為緩慢、審慎且合乎邏輯
2025年2月21日,人形機(jī)器人初創(chuàng)Figure AI發(fā)布了突破性的VLA進(jìn)展——Helix。
這是一個采用「系統(tǒng)1+系統(tǒng)2」架構(gòu)的端到端機(jī)器人大模型。
以往的VLA主干網(wǎng)絡(luò),具有通用性但速度不快,機(jī)器人視覺運動策略速度快,但缺乏通用性。
Helix通過兩個系統(tǒng)端到端訓(xùn)練,徹底解決了這一難題。
系統(tǒng)1(S1):80M參數(shù)交叉注意力Transformer,依靠一個全卷積的多尺度視覺主干網(wǎng)絡(luò),進(jìn)行視覺處理
系統(tǒng)2(S2):VLM主干網(wǎng)絡(luò),經(jīng)互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)訓(xùn)練后,工作頻率7-9Hz,用于場景和語言理解
這種解耦架構(gòu),讓每個系統(tǒng)都能在最佳時間尺度上運行,S2可以「慢思考」高層目標(biāo),S1通過「快思考」來實時執(zhí)行和調(diào)整動作。
更驚嘆的是,在協(xié)作中,S1能快速適應(yīng)同伴的動作變化,同時維持S2設(shè)定的語義目標(biāo)。
Helix也成為最有影響力的「雙系統(tǒng)」VLA模型之一。
英偉達(dá):開源GROOT N1
緊接著,3月18日,英偉達(dá)Isaac團(tuán)隊則開源了全球首個通用人形機(jī)器人基礎(chǔ)模型——GROOT N1。
該工作將雙系統(tǒng)VLA理念落實到人形機(jī)器人領(lǐng)域,加速了學(xué)術(shù)界和工業(yè)界對通用人形機(jī)器人智能體的研發(fā)。
GR00T N1神經(jīng)網(wǎng)絡(luò)架構(gòu)示意圖:采用視覺語言基礎(chǔ)模型與擴(kuò)散Transformer頭的創(chuàng)新組合,通過連續(xù)動作去噪實現(xiàn)精準(zhǔn)控制
GR00T N1標(biāo)志著人形機(jī)器人基礎(chǔ)模型的里程碑:通過融合互聯(lián)網(wǎng)數(shù)據(jù)和機(jī)器人數(shù)據(jù),實現(xiàn)了硬件實體上的廣義推理與技能遷移。
FiS-VLA:全面超越當(dāng)時最強(qiáng)開源模型π0
然而,此類架構(gòu)中兩個系統(tǒng)相互獨立,System 1難以充分利用System 2所蘊(yùn)含的豐富預(yù)訓(xùn)練知識。
為了攻克這一技術(shù)瓶頸,智平方聯(lián)合香港中文大學(xué)、北京大學(xué)、北京智源研究院,又一次展現(xiàn)了中國具身的最強(qiáng)實力。
他們創(chuàng)新性地提出了深度融合的快慢系統(tǒng)Fast-in-Slow(FiS-VLA),以突破性技術(shù)架構(gòu)實現(xiàn)了機(jī)器人的「即知即行」,為全球VLA技術(shù)樹立了全新里程碑。
具體來說,F(xiàn)ast-in-Slow(FiS)架構(gòu)統(tǒng)一了雙系統(tǒng)VLA模型:
執(zhí)行模塊System 1被嵌入到System 2中,二者通過共享部分參數(shù)的方式連接。
常規(guī)算法和FiS對比:FiS-VLA采用完整視覺語言模型(VLM)實現(xiàn)系統(tǒng)2(圖中藍(lán)色部分)的推理功能,同時改造LLM的末端Transformer模塊作為系統(tǒng)1(圖中綠色部分)的執(zhí)行單元
這是首次在單一預(yù)訓(xùn)練模型內(nèi)實現(xiàn)「慢思考」與「快執(zhí)行」的協(xié)同,成功突破了傳統(tǒng)雙系統(tǒng)分離的瓶頸。
系統(tǒng)1直接繼承了VLM的預(yù)訓(xùn)練知識,能無縫理解系統(tǒng)2的「思考結(jié)果」(中間層特征)。
從此,它不再是「門外漢」,同時還能保證高速運行。
在FiS-VLA中,兩個系統(tǒng)的角色存在根本差異:
(1)系統(tǒng)1負(fù)責(zé)執(zhí)行,讀取機(jī)器人狀態(tài)、3D點云和當(dāng)前圖像,生成高頻控制動作,節(jié)奏極快;
(2)系統(tǒng)2負(fù)責(zé)理解,處理二維圖像和語言指令等低頻輸入,提取任務(wù)語義,節(jié)奏偏慢。
為此,這次特意引入了異構(gòu)模態(tài)輸入與異步運行頻率策略。
這種做法讓模型既能像「張飛繡花」,又能像「博爾特短跑」:既可快速反應(yīng),又能精細(xì)推理。
此外,兩個系統(tǒng)之間的協(xié)調(diào)性也是難點:一方面要為系統(tǒng)1注入動作生成能力,但另一方面卻要保留系統(tǒng)2的上下文推理能力。
對此,研究者結(jié)合擴(kuò)散去噪目標(biāo)與自回歸目標(biāo),提出了雙系統(tǒng)感知協(xié)同訓(xùn)練策略(dual-aware co-training strategy)。
FiS-VLA框架結(jié)構(gòu)
執(zhí)行模塊(系統(tǒng)1,上圖綠色部分):采用擴(kuò)散建模(diffusion modeling)中概率性與連續(xù)性的特點,向嵌入空間注入帶噪動作作為潛在變量,學(xué)習(xí)動作生成。
推理模塊(系統(tǒng)2,上圖藍(lán)色部分):采用自回歸逐token預(yù)測的范式作為訓(xùn)練目標(biāo),生成離散的語言或動作,避免慢系統(tǒng)發(fā)生災(zāi)難性遺忘。
這有效解決了傳統(tǒng)VLA模型執(zhí)行頻率低、推理與動作割裂的問題:
不僅賦予了System 1高頻率執(zhí)行能力,也促進(jìn)了推理與執(zhí)行模塊之間的高效協(xié)同。
在實驗評估中,F(xiàn)iS-VLA的表現(xiàn)顯著優(yōu)于現(xiàn)有方法:在仿真任務(wù)中平均成功率提升8%,在真實環(huán)境中提升11%。
在RLBench的10個仿真任務(wù)上,F(xiàn)iS-VLA取得了69%的平均成功率,明顯優(yōu)于CogACT(61%)和π0(55%)。
而且,哪怕在未采用動作塊(action chunking)機(jī)制的情況下,F(xiàn)iS-VLA依然實現(xiàn)了21.9Hz的控制頻率,運行速度是CogACT(9.8 Hz)的2倍以上,也超過π0(13.8 Hz)1.6倍。
在RLBench上,F(xiàn)iS-VLA與基線方法的性能對比
在真機(jī)任務(wù)上,不管單臂還是雙臂操作的任務(wù),新方法的成功率都全面領(lǐng)先當(dāng)時最強(qiáng)的開源模型π0。
在真實場景中,F(xiàn)iS-VLA與π0的性能對比
在面對全新物體、復(fù)雜背景與多樣光照條件等難題時,也展現(xiàn)出了良好的泛化能力,明顯領(lǐng)先π0模型。
泛化性實驗。左圖展示三種泛化測試場景,其中紅色方框標(biāo)出關(guān)鍵差異點
上表中,「Object」(物體)、「background」(背景)與「Lighting」(光照)分別指未經(jīng)訓(xùn)練的操控對象、復(fù)雜背景及光照干擾。
最終,這種快慢系統(tǒng)能夠同時快速響應(yīng)環(huán)境變化,同時還能完成長程推理任務(wù)。
通往AGI的星辰大海
回顧VLA模型在全球的演進(jìn)歷程,我們見證了,技術(shù)的每一次突破如何層層遞進(jìn),中國具身公司如何為業(yè)界貢獻(xiàn)力量。
從RT-1的開創(chuàng),到RT-2確立VLA范式,再到RoboMamba、OpenVLA的開源普及,到Pi0~Pi0.5的進(jìn)一步泛化、擴(kuò)大影響力,又到FiS-VLA的實時控制突破,每一步都在不斷挑戰(zhàn)技術(shù)極限。
這構(gòu)成了VLA動作層面的「自回歸到擴(kuò)散到混合」的演進(jìn)路徑,以及雙系統(tǒng)層面的「非端到端到快慢松耦合到快慢緊耦合」的演進(jìn)路徑,不僅展現(xiàn)出VLA模型的強(qiáng)大適應(yīng)性,也揭示了機(jī)器人智能從單一任務(wù)到通用能力的進(jìn)化邏輯。
在這一波瀾壯闊的技術(shù)浪潮中,智平方作為中國具身智能的代表,以其卓越的創(chuàng)新能力和產(chǎn)業(yè)影響力,攜手國內(nèi)頂尖高校與機(jī)構(gòu),共同鑄就了技術(shù)新高峰。
通過RoboMamba、HybridVLA、FiS-VLA等一系列原創(chuàng)成果,智平方不僅攻克了長序列推理、實時控制等VLA難題,更以中國智慧為全球具身智能的發(fā)展注入了強(qiáng)勁的動力。
短短三年的時間,VLA技術(shù)完成了從實驗室走向工業(yè)落地的華麗蛻變。
隨著GROOT N1、Helix、FiS-VLA等模型的部署,VLA將在人形機(jī)器人、智能制造等領(lǐng)域大放異彩。
如今,VLA模型加持下的人形機(jī)器人,已經(jīng)進(jìn)車間打工了。
站在2025年全新節(jié)點上,VLA模型不僅僅是技術(shù)的突破,更是人類邁向AGI的堅實一步。
一起共同期待,VLA如何在未來重塑世界,開啟機(jī)器人智能的黃金時代!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.