網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

VLA爆發(fā)！從美國RT-2到中國FiS-VLA，機(jī)器人「即知即行」的終極進(jìn)化

2025-07-08 13:30:45　來源: 新智元

北京舉報

分享至

新智元報道

編輯：編輯部

【新智元導(dǎo)讀】2025年，全球具身智能賽道爆火，VLA模型成為了絕對的C位。從美國RT-2的開創(chuàng)性突破，到中國最新FiS-VLA「快慢雙系統(tǒng)」，VLA正以光速硬核進(jìn)化。

2025年，具身智能可真是太火了。

而提到具身智能，不得不提——視覺語言動作模型（Vision-Language-Action，VLA）。

作為具身智能的核心驅(qū)動力，VLA正席卷全球，成為研究人員們的「新寵」。

從產(chǎn)業(yè)界到學(xué)術(shù)界，全球的主流公司與研究機(jī)構(gòu)，都在加速向這一方向靠攏，達(dá)成了罕見的共識。

在硅谷，諸如谷歌DeepMind、Figure AI、Skild AI、Physical Intelligence等行業(yè)領(lǐng)軍者，早已開始發(fā)力押注VLA的未來。

幾周前，谷歌曾發(fā)布了首個離線VLA模型，讓機(jī)器人不用聯(lián)網(wǎng)，即可精準(zhǔn)操控完成任務(wù)。

與此同時，中國在這一賽道上的表現(xiàn)也毫不遜色。

近日，國內(nèi)具身智能代表性創(chuàng)企——智平方，聯(lián)合頭部高校發(fā)布了一款全新的VLA模型——Fast-in-Slow（FiS-VLA）。

這款模型最大的亮點，是將雙系統(tǒng)模塊中的「快系統(tǒng)」嵌入「慢系統(tǒng)」，打破了機(jī)器人「操控效率」與「推理能力」不可兼得的困局。

論文鏈接: https://arxiv.org/pdf/2506.01953

項目主頁: https://fast-in-slow.github.io/

代碼鏈接: https://github.com/CHEN-H01/Fast-in-Slow

從放置水果到疊毛巾，F(xiàn)iS-VLA加持的機(jī)器人不僅秒懂指令，還能以驚人速度流暢執(zhí)行。

更令人振奮的是，自今年以來，與VLA相關(guān)的學(xué)術(shù)論文呈爆發(fā)式增長。

根據(jù)谷歌學(xué)術(shù)統(tǒng)計，VLA相關(guān)結(jié)果共有2820條；而今年，就有1390條結(jié)果，幾乎占全部結(jié)果的1/2。

放眼全球，VLA的熱潮不止于此。

VLA技術(shù)加速機(jī)器人從實驗室走向物理世界，并催生出了各具特色的技術(shù)分支。

這不僅印證了VLA的巨大潛力，也預(yù)示著，它正在重塑智能機(jī)器人與人類交互的未來。

或許你一定好奇，VLA為何成為了具身智能的「新范式」？

VLA超進(jìn)化

谷歌RT-2成關(guān)鍵節(jié)點

若想破除這一疑問，前提是必須理解VLA模型的重要性。

機(jī)器人要像人類一樣，既能理解復(fù)雜指令，又能靈活應(yīng)對環(huán)境，快速行動——

目前，端到端VLA大模型是最符合第一性原理的解題思路。

作為AI領(lǐng)域的一顆新星，VLA模型將視覺、語言、動作三種模態(tài)融在一體，讓具身AI不僅能「看懂」世界、「聽懂」指令，還能執(zhí)行任務(wù)。

想象一下，一個機(jī)器人能理解「將物品放置在冰箱」，并與同伴「共腦」合作，精準(zhǔn)完成抓取放置任務(wù)——

這就是VLA的魅力！

與傳統(tǒng)對話式AI不同，VLA通過統(tǒng)一的模型架構(gòu)，將多模態(tài)信息整合處理，實現(xiàn)了從感知到動作的「端到端閉環(huán)控制」。

正是它的出現(xiàn)，讓機(jī)器人從過去的預(yù)編程、簡單遙控的「機(jī)械執(zhí)行者」，進(jìn)化為真正的通用具身智能。

那么，VLA究竟何時出現(xiàn)的？又是如何煉成的？

2022年，谷歌Robotics團(tuán)隊的RT-1橫空出世，這是接近VLA的機(jī)器人基礎(chǔ)模型的代表工作之一。

論文鏈接：https://arxiv.org/abs/2212.06817

這是機(jī)器人領(lǐng)域，首個大規(guī)模訓(xùn)練的Transformer模型。

RT-1通過模仿學(xué)習(xí)，在多樣化的機(jī)器人演示數(shù)據(jù)上訓(xùn)練，具備了跨任務(wù)的泛化能力，比如它能完成「把可樂放入冰箱」多步驟任務(wù)。

它首次將「預(yù)訓(xùn)練+微調(diào)」的范式引入了機(jī)器人控制領(lǐng)域，為后續(xù)VLA模型的提出奠定了基礎(chǔ)。

RT-1的出現(xiàn)，開創(chuàng)了多任務(wù)的「視覺-動作」模型。

既然「預(yù)訓(xùn)練+微調(diào)」范式行得通，為什么要重新訓(xùn)練大模型？

與純文本任務(wù)不同，機(jī)器人系統(tǒng)必須具備對現(xiàn)實世界物理規(guī)律、環(huán)境上下文的深入理解，并能執(zhí)行具體動作。

這些問題遠(yuǎn)遠(yuǎn)超出了語言模型最初的設(shè)計范疇：它不僅要「理解文字」，更要「執(zhí)行意圖」。

隨后，研究者嘗試將語言融入機(jī)器人系統(tǒng)。但這些方法通常存在功能有限、適用范圍狹窄或為開環(huán)系統(tǒng)，難以實現(xiàn)實時互動與基于反饋的動態(tài)調(diào)整。

2023年，微軟提出了ChatGPT for Robotics，首次將對話大模型應(yīng)用于機(jī)器人，實現(xiàn)了零樣本任務(wù)規(guī)劃。

論文鏈接：https://arxiv.org/abs/2306.17582

這時，只需動動嘴皮子——我想用積木塊拼出微軟logo，模型瞬間領(lǐng)會完成拼圖。

這項研究，將LLM用于機(jī)器人控制的設(shè)想變成現(xiàn)實，并在機(jī)器人領(lǐng)域，引領(lǐng)了一種全新研究風(fēng)潮——「LLM+機(jī)器人」。

不過，它也暴露了語言模型在低級動作控制上的局限，如何讓語言與動作的深度融合，成為下一個突破的難題。

幾乎同時，谷歌帶來了PaLM-E，首次將視覺感知能力融入超大語言模型PaLM中。

PaLM-E最大參數(shù)達(dá)5620億，實現(xiàn)了視覺問答、圖像描述、機(jī)器人操作規(guī)劃的統(tǒng)一。

在開放領(lǐng)域視覺問答上，PaLM-E刷新了SOTA，還將互聯(lián)網(wǎng)規(guī)模的語義知識遷移到機(jī)器人控制中，為后續(xù)多模態(tài)模型提供了關(guān)鍵的設(shè)計范式。

VLA范式正式確立

經(jīng)過四個多月迭代后，23年7月，谷歌DeepMind的RT-2正式上線，明確提出了VLA概念。

RT-2首創(chuàng)性地將機(jī)器人動作離散化為文本token，與視覺語言數(shù)據(jù)聯(lián)合訓(xùn)練。

得益于此，它展現(xiàn)出了強(qiáng)大的泛化能力，在從未見過的物體上完成指令響應(yīng)、理解數(shù)字符號和多步推理。

RT-2在未見任務(wù)上實現(xiàn)了超50%的成功率

這一刻，標(biāo)志著VLA范式的正式確立，開啟了「大模型驅(qū)動機(jī)器人控制」的新方向。

技術(shù)追逐賽加速

中國具身企業(yè)國際舞臺首發(fā)聲

自此之后，國內(nèi)外具身智能玩家競相加速，掀起了一場激烈的VLA技術(shù)追逐戰(zhàn)。

2024年6月，中國隊提出創(chuàng)新方法，破解VLA領(lǐng)域的長期痛點，迅速嶄露頭角。

眾所周知，機(jī)器人操作基本目標(biāo)之一是理解視覺場景并執(zhí)行動作。盡管RT-2這類VLA可以處理一些基本任務(wù)，但還有兩個痛點：

（1）面對復(fù)雜任務(wù)，推理能力不足；

（2）在微調(diào)和推斷上，算力成本太高。

而狀態(tài)空間序列模型Mamba，只有線性復(fù)雜度，但也實現(xiàn)了情境感知推理。

那為什么不把Mamba引入VLA，解決之前的痛點？

在這一關(guān)鍵時刻，智平方作為國內(nèi)具身智能領(lǐng)域的領(lǐng)先者，展現(xiàn)了其技術(shù)創(chuàng)新的深厚實力。

他們與北大等頂尖機(jī)構(gòu)一起，率先將Mamba引入VLA架構(gòu)模型，推出了革命性的輕量化結(jié)構(gòu)RoboMamba。

這一突破，直接讓VLA模型實現(xiàn)了效率與推理泛化能力的重大飛躍。

論文鏈接：https://arxiv.org/abs/2406.04339

具體而言，RoboMamba將視覺編碼器與Mamba大模型融合，實現(xiàn)視覺常識理解與機(jī)器人專項推理能力。

相比之前的VLA模型，RoboMamba不僅復(fù)雜度降低了，還顯著提升了長序列推理能力。

而且RoboMamba僅微調(diào)0.1%參數(shù)，即可實現(xiàn)SE(3)位姿的預(yù)測與操控能力。

在模擬和真實環(huán)境下，推理速度是主流模型的3倍，成為VLA實時性挑戰(zhàn)的突破口。

RoboMamba證明了，狀態(tài)空間建模范式在VLA中的高效性，引領(lǐng)了Transformer替代方案的新探索。

這一突破性成功入選了人工智能頂級盛會 NeurIPS 2024，也創(chuàng)造了中國具身公司在VLA領(lǐng)域國際舞臺的首次發(fā)聲！

緊接著，同月，來自Physical Intelligence、斯坦福、谷歌等機(jī)構(gòu)的團(tuán)隊，則針對RT系列模型所暴露出的問題，開源了一款全新的大規(guī)模VLA模型——OpenVLA。

此前的RT系列模型雖展示了VLA模型的通用泛化能力，但其對物理空間的表達(dá)能力，即視覺編碼器（Vision Encoder）在精細(xì)化識別上，表現(xiàn)不佳。

舉個栗子，讓RT-2機(jī)器人分類同色積木塊、將可樂放在霉霉身邊的任務(wù)中，表現(xiàn)并不理想

OpenVLA有7億參數(shù)，基于Llama 2骨干構(gòu)建，融合了DINOv2和SigLIP視覺特征，并在97萬個真實機(jī)器人示教數(shù)據(jù)集上完成了預(yù)訓(xùn)練。

令人意想不到的是，OpenVLA在29種操作任務(wù)中，碾壓55億參數(shù)的RT-2-X，成功率高出16.5%。

論文鏈接：https://arxiv.org/abs/2406.09246

OpenVLA僅以1/7的體積，就實現(xiàn)了性能超越，還能在消費級GPU上快速適配各種任務(wù)。

比如，讓它把香蕉放在盤子里，OpenVLA就會直接將其放在盤子中間。

最強(qiáng)泛化？

國產(chǎn)原創(chuàng)「混合架構(gòu)」出圈

繼RoboMamba、OpenVLA推動了模型開源和效率提升之后，Physical Intelligence提出的π系列模型重新思考一個問題：

如何用最簡結(jié)構(gòu)，實現(xiàn)VLA最強(qiáng)泛化？

2024年10月31日，π?，一款通用機(jī)器人流匹配策略模型誕生。

在預(yù)訓(xùn)練視覺語言模型基礎(chǔ)上，π?疊加了流匹配架構(gòu)，集成了互聯(lián)網(wǎng)級語義知識，同時還支持單臂、雙臂、移動操作臂等多種靈巧機(jī)器人的連續(xù)動作建模。

在洗衣折疊、桌面清潔、裝配盒子等復(fù)雜任務(wù)中，π?展現(xiàn)出零樣本執(zhí)行、自然語言指令遵循、快速微調(diào)新技能的能力。

π?架構(gòu)

得益于其「流匹配+預(yù)訓(xùn)練語義模型」的架構(gòu)，為高自由度連續(xù)控制場景提供了全新路徑。

與此同時，π?還承接了RT-2對語義泛化的關(guān)注，進(jìn)一步推動了AI社區(qū)對VLA模型研究。

時隔半年，π?.?作為初代增強(qiáng)版發(fā)布，更加聚焦開放世界泛化能力的提升，強(qiáng)化了在未見環(huán)境中的適應(yīng)能力。

π?.?在未見家庭場景中，無需訓(xùn)練即可高質(zhì)量完成清潔任務(wù)，處理從模糊指令到詳細(xì)動作的多種輸入。

它的誕生，真正實現(xiàn)了在不犧牲精度前提下，提升了「任務(wù)泛化」和「環(huán)境泛化」的性能，標(biāo)志著VLA已具備了向現(xiàn)實世界大規(guī)模推廣的能力。

π系列僅是VLA模型技術(shù)模型技術(shù)分支的一種：采用擴(kuò)散架構(gòu)。

除此之外，隨著不同玩家的布局，在VLA全新范式下，已經(jīng)分化出不同的技術(shù)路徑。

有的采用自回歸架構(gòu)，有的基于擴(kuò)散模型的動作解碼器，還有的兩種架構(gòu)兼用。

融合自回歸+擴(kuò)散，既要穩(wěn)又要學(xué)得快

HybridVLA，就是混合架構(gòu)的代表作之一。

這背后，依舊由中國團(tuán)隊主導(dǎo)，他們通過原創(chuàng)突破攻克了復(fù)雜環(huán)境下魯棒性與泛化能力平衡的難題，開啟了混合動作生成的新方向。

通過自回歸和Diffusion+Action Chunk架構(gòu)，HybridVLA統(tǒng)一了視覺-語言-動作的協(xié)作生成。

論文地址：https://arxiv.org/abs/2503.10631

如下圖所示，過去基于擴(kuò)散的VLA方法僅在LLM后端附加獨立擴(kuò)散頭（圖1a）。

而新方法創(chuàng)新性地提出協(xié)同訓(xùn)練方案，將擴(kuò)散去噪過程無縫融入單一LLM主干的自回歸流程（圖1b）。

不同VLA中LLM和Diffusion的融合方法對比

具體實現(xiàn)上，針對離散自回歸token與連續(xù)擴(kuò)散隱變量在表征層面的異構(gòu)性，研究者設(shè)計了系統(tǒng)化的token序列組織形式，利用特定標(biāo)記token實現(xiàn)多模態(tài)輸入、擴(kuò)散token與自回歸token的有機(jī)銜接。

從結(jié)果上看，HybridVLA在多個仿真和真實世界任務(wù)中超越了現(xiàn)有的SOTAVLA方法，同時被PI作為baseline引用和對比，這也是PI唯一對比過的中國VLA模型。

值得注意的是，該Paper的一作劉家銘博士也是「北大—智平方具身智能聯(lián)合實驗室」的研究員。

最終，機(jī)器人實現(xiàn)了全身控制，包括從桌面單臂到全域觸達(dá)&全身動作，因而適用范圍也得到了指數(shù)級拓展。

盡管業(yè)界在VLA模型的探索成果頗多，但傳統(tǒng)方法仍未解決具身智能領(lǐng)域核心矛盾——

視覺-語言模型（VLM）具備很強(qiáng)的泛化能力，但處理速度較慢；

而機(jī)器人視覺-運動策略雖然反應(yīng)迅速，卻缺乏通用性。

雙系統(tǒng)

泛化性和執(zhí)行效率全都要

受到卡尼曼雙系統(tǒng)理論（Kahneman’s theory）的啟發(fā)，Helix研究者提出了「雙系統(tǒng)架構(gòu)」：

由基于VLM的System 2處理高層推理，另一個獨立的System 1負(fù)責(zé)實時動作執(zhí)行。

Daniel Kahneman：諾貝爾經(jīng)濟(jì)學(xué)獎得主。他將人類思維劃分為兩種模式：「系統(tǒng)1」反應(yīng)快速、依賴本能和情緒；「系統(tǒng)2」則更為緩慢、審慎且合乎邏輯

2025年2月21日，人形機(jī)器人初創(chuàng)Figure AI發(fā)布了突破性的VLA進(jìn)展——Helix。

這是一個采用「系統(tǒng)1+系統(tǒng)2」架構(gòu)的端到端機(jī)器人大模型。

以往的VLA主干網(wǎng)絡(luò)，具有通用性但速度不快，機(jī)器人視覺運動策略速度快，但缺乏通用性。

Helix通過兩個系統(tǒng)端到端訓(xùn)練，徹底解決了這一難題。

系統(tǒng)1（S1）：80M參數(shù)交叉注意力Transformer，依靠一個全卷積的多尺度視覺主干網(wǎng)絡(luò)，進(jìn)行視覺處理

系統(tǒng)2（S2）：VLM主干網(wǎng)絡(luò)，經(jīng)互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)訓(xùn)練后，工作頻率7-9Hz，用于場景和語言理解

這種解耦架構(gòu)，讓每個系統(tǒng)都能在最佳時間尺度上運行，S2可以「慢思考」高層目標(biāo)，S1通過「快思考」來實時執(zhí)行和調(diào)整動作。

更驚嘆的是，在協(xié)作中，S1能快速適應(yīng)同伴的動作變化，同時維持S2設(shè)定的語義目標(biāo)。

Helix也成為最有影響力的「雙系統(tǒng)」VLA模型之一。

英偉達(dá)：開源GROOT N1

緊接著，3月18日，英偉達(dá)Isaac團(tuán)隊則開源了全球首個通用人形機(jī)器人基礎(chǔ)模型——GROOT N1。

該工作將雙系統(tǒng)VLA理念落實到人形機(jī)器人領(lǐng)域，加速了學(xué)術(shù)界和工業(yè)界對通用人形機(jī)器人智能體的研發(fā)。

GR00T N1神經(jīng)網(wǎng)絡(luò)架構(gòu)示意圖：采用視覺語言基礎(chǔ)模型與擴(kuò)散Transformer頭的創(chuàng)新組合，通過連續(xù)動作去噪實現(xiàn)精準(zhǔn)控制

GR00T N1標(biāo)志著人形機(jī)器人基礎(chǔ)模型的里程碑：通過融合互聯(lián)網(wǎng)數(shù)據(jù)和機(jī)器人數(shù)據(jù)，實現(xiàn)了硬件實體上的廣義推理與技能遷移。

FiS-VLA：全面超越當(dāng)時最強(qiáng)開源模型π0

然而，此類架構(gòu)中兩個系統(tǒng)相互獨立，System 1難以充分利用System 2所蘊(yùn)含的豐富預(yù)訓(xùn)練知識。

為了攻克這一技術(shù)瓶頸，智平方聯(lián)合香港中文大學(xué)、北京大學(xué)、北京智源研究院，又一次展現(xiàn)了中國具身的最強(qiáng)實力。

他們創(chuàng)新性地提出了深度融合的快慢系統(tǒng)Fast-in-Slow（FiS-VLA），以突破性技術(shù)架構(gòu)實現(xiàn)了機(jī)器人的「即知即行」，為全球VLA技術(shù)樹立了全新里程碑。

具體來說，F(xiàn)ast-in-Slow（FiS）架構(gòu)統(tǒng)一了雙系統(tǒng)VLA模型：

執(zhí)行模塊System 1被嵌入到System 2中，二者通過共享部分參數(shù)的方式連接。

常規(guī)算法和FiS對比：FiS-VLA采用完整視覺語言模型（VLM）實現(xiàn)系統(tǒng)2（圖中藍(lán)色部分）的推理功能，同時改造LLM的末端Transformer模塊作為系統(tǒng)1（圖中綠色部分）的執(zhí)行單元

這是首次在單一預(yù)訓(xùn)練模型內(nèi)實現(xiàn)「慢思考」與「快執(zhí)行」的協(xié)同，成功突破了傳統(tǒng)雙系統(tǒng)分離的瓶頸。

系統(tǒng)1直接繼承了VLM的預(yù)訓(xùn)練知識，能無縫理解系統(tǒng)2的「思考結(jié)果」（中間層特征）。

從此，它不再是「門外漢」，同時還能保證高速運行。

在FiS-VLA中，兩個系統(tǒng)的角色存在根本差異：

（1）系統(tǒng)1負(fù)責(zé)執(zhí)行，讀取機(jī)器人狀態(tài)、3D點云和當(dāng)前圖像，生成高頻控制動作，節(jié)奏極快；

（2）系統(tǒng)2負(fù)責(zé)理解，處理二維圖像和語言指令等低頻輸入，提取任務(wù)語義，節(jié)奏偏慢。

為此，這次特意引入了異構(gòu)模態(tài)輸入與異步運行頻率策略。

這種做法讓模型既能像「張飛繡花」，又能像「博爾特短跑」：既可快速反應(yīng)，又能精細(xì)推理。

此外，兩個系統(tǒng)之間的協(xié)調(diào)性也是難點：一方面要為系統(tǒng)1注入動作生成能力，但另一方面卻要保留系統(tǒng)2的上下文推理能力。

對此，研究者結(jié)合擴(kuò)散去噪目標(biāo)與自回歸目標(biāo)，提出了雙系統(tǒng)感知協(xié)同訓(xùn)練策略（dual-aware co-training strategy）。

FiS-VLA框架結(jié)構(gòu)

執(zhí)行模塊（系統(tǒng)1，上圖綠色部分）：采用擴(kuò)散建模（diffusion modeling）中概率性與連續(xù)性的特點，向嵌入空間注入帶噪動作作為潛在變量，學(xué)習(xí)動作生成。

推理模塊（系統(tǒng)2，上圖藍(lán)色部分）：采用自回歸逐token預(yù)測的范式作為訓(xùn)練目標(biāo)，生成離散的語言或動作，避免慢系統(tǒng)發(fā)生災(zāi)難性遺忘。

這有效解決了傳統(tǒng)VLA模型執(zhí)行頻率低、推理與動作割裂的問題：

不僅賦予了System 1高頻率執(zhí)行能力，也促進(jìn)了推理與執(zhí)行模塊之間的高效協(xié)同。

在實驗評估中，F(xiàn)iS-VLA的表現(xiàn)顯著優(yōu)于現(xiàn)有方法：在仿真任務(wù)中平均成功率提升8%，在真實環(huán)境中提升11%。

在RLBench的10個仿真任務(wù)上，F(xiàn)iS-VLA取得了69%的平均成功率，明顯優(yōu)于CogACT（61%）和π0（55%）。

而且，哪怕在未采用動作塊（action chunking）機(jī)制的情況下，F(xiàn)iS-VLA依然實現(xiàn)了21.9Hz的控制頻率，運行速度是CogACT（9.8 Hz）的2倍以上，也超過π0（13.8 Hz）1.6倍。

在RLBench上，F(xiàn)iS-VLA與基線方法的性能對比

在真機(jī)任務(wù)上，不管單臂還是雙臂操作的任務(wù)，新方法的成功率都全面領(lǐng)先當(dāng)時最強(qiáng)的開源模型π0。

在真實場景中，F(xiàn)iS-VLA與π0的性能對比

在面對全新物體、復(fù)雜背景與多樣光照條件等難題時，也展現(xiàn)出了良好的泛化能力，明顯領(lǐng)先π0模型。

泛化性實驗。左圖展示三種泛化測試場景，其中紅色方框標(biāo)出關(guān)鍵差異點

上表中，「Object」(物體)、「background」（背景）與「Lighting」（光照）分別指未經(jīng)訓(xùn)練的操控對象、復(fù)雜背景及光照干擾。

最終，這種快慢系統(tǒng)能夠同時快速響應(yīng)環(huán)境變化，同時還能完成長程推理任務(wù)。

通往AGI的星辰大海

回顧VLA模型在全球的演進(jìn)歷程，我們見證了，技術(shù)的每一次突破如何層層遞進(jìn)，中國具身公司如何為業(yè)界貢獻(xiàn)力量。

從RT-1的開創(chuàng)，到RT-2確立VLA范式，再到RoboMamba、OpenVLA的開源普及，到Pi0~Pi0.5的進(jìn)一步泛化、擴(kuò)大影響力，又到FiS-VLA的實時控制突破，每一步都在不斷挑戰(zhàn)技術(shù)極限。

這構(gòu)成了VLA動作層面的「自回歸到擴(kuò)散到混合」的演進(jìn)路徑，以及雙系統(tǒng)層面的「非端到端到快慢松耦合到快慢緊耦合」的演進(jìn)路徑，不僅展現(xiàn)出VLA模型的強(qiáng)大適應(yīng)性，也揭示了機(jī)器人智能從單一任務(wù)到通用能力的進(jìn)化邏輯。

在這一波瀾壯闊的技術(shù)浪潮中，智平方作為中國具身智能的代表，以其卓越的創(chuàng)新能力和產(chǎn)業(yè)影響力，攜手國內(nèi)頂尖高校與機(jī)構(gòu)，共同鑄就了技術(shù)新高峰。

通過RoboMamba、HybridVLA、FiS-VLA等一系列原創(chuàng)成果，智平方不僅攻克了長序列推理、實時控制等VLA難題，更以中國智慧為全球具身智能的發(fā)展注入了強(qiáng)勁的動力。

短短三年的時間，VLA技術(shù)完成了從實驗室走向工業(yè)落地的華麗蛻變。

隨著GROOT N1、Helix、FiS-VLA等模型的部署，VLA將在人形機(jī)器人、智能制造等領(lǐng)域大放異彩。

如今，VLA模型加持下的人形機(jī)器人，已經(jīng)進(jìn)車間打工了。

站在2025年全新節(jié)點上，VLA模型不僅僅是技術(shù)的突破，更是人類邁向AGI的堅實一步。

一起共同期待，VLA如何在未來重塑世界，開啟機(jī)器人智能的黃金時代！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.