率先實現泛化能力、靈巧操作、CoT推理能力的融合。
作者|王藝
1957年,在一場國際會議上,一位男士通過操作機械臂,為打字員女士點燃了一支香煙,這個機器臂名叫Atomic Robot a Handy Guy(原子機器人),是第一個能完成復雜操作的機器人,這場帶有“真人秀”性質的表演被視為人類歷史上機器操作的起源。
Atomic Robot a Handy Guy 視頻來源:網絡
1966-1972年,斯坦福研究院研發出了一臺名為Shakey的機器人,它可以嘗試簡單的英文指令,如“Push the box off the platform.(將盒子推下平臺)”,并且遇到障礙能轉身、見到旗幟能停車。這是人類歷史上第一次嘗試讓機器人理解語言指令并行動,這臺小車也被視為機器人“有思考能力”的開端。
Shakey機器人,圖源:網絡
時間快進到半個世紀以后,2013年,DeepMind的DQN通過將游戲的像素值作為網絡的輸入,成功在一套雅達利(Atari)游戲中超越了之前所有模型的得分,學術界第一次意識到,深度學習可以讓“視覺”和“動作”用同一張神經網絡實現。于是,一批戴著攝像頭、學會了疊積木、插USB接口的“專用”機器人成為了科技界的新寵。但是,這些搭載了專用模型的機器人卻常常因為光照變化或者物體稍微換形就“宕機”,大家發現,讓機器人理解物理世界比理解雅達利游戲難得多。
直到2021年,OpenAI的CLIP、Google的ALIGN把海量圖片和文字對齊到同一個嵌入空間,具身智能進入了VLM(Vision-Language-Model,視覺語言模型) 時代后,視覺與語言才第一次“完全聽懂”了對方。VLM模型雖能理解視覺與語言關聯,但缺乏對物理動作的直接控制能力,需依賴額外模塊將指令轉化為動作信號。
2022年,Google和CMU相繼推出“SayCan”、“Instruct2Act” 工作,Transformer模型既看圖、又讀指令、還能生成生成動作軌跡成為可能;2023年,隨著谷歌DeepMind推出RT-2模型,機器人可以端到端地從給定的語言指令和視覺信號,直接生成特定的動作,具身智能領域也迎來了一個新名詞:VLA(Vision-Language-Action Model,視覺-語言-動作模型)。
如果說過去十年,機器人領域的焦點先后經歷了「看得見」的視覺感知、「聽得懂」的語言理解,那么在VLA模型出現之后,機器人開始走向「動得準」的第三階段。
1.VLA的困境
VLA模型的整體框架可以被視為VLM與端到端模型的結合體,也被看作是端到端大模型2.0——多模態機器學習模型。其核心組件包括視覺編碼器、文本編碼器、動作解碼器。視覺編碼器負責提取圖像的高級特征,文本編碼器處理用戶指令或導航信息,動作解碼器輸出未來10-30秒的動作路徑。
VLA模型通用架構,圖源:《A Survey on Vision-Language-Action Models for Embodied AI》
與傳統的視覺語言模型(VLM)相比,VLA模型的優勢在于其不僅可以解析圖像和文本信息,還能實現類人推理與全局理解,換句話說,它的“擬人化”和“可解釋性”更高;
而如果在此基礎上再進一步總結VLA模型的四個核心特性,那么應該是:
架構繼承:不重新設計整體結構,只新增或替換輸出模塊(如action head);
動作token化:將機器人動作表示為語言形式(位置、速度、軌跡點等);
端到端學習:感知-推理-控制一體化完成;
可泛化性:預訓練VLM具備強視覺理解能力,有助于跨任務遷移。
VLA模型打破了以往只能在單個任務上訓練大模型的局限性,讓機器人第一次擁有了將語言意圖、視覺感知與物理動作編織成連續決策流的能力,讓具身大模型變得更加通用和泛化,極大縮短了指令理解和任務執行之間的距離,顯著提升了機器人對復雜環境的理解和適應能力。
也正是出于上述種種優勢,VLA成為了當下最具身智能最為火熱的技術趨勢,2025年以來,眾多公司相繼發布自己的VLA模型,如谷歌的Gemini Robotics,英偉達的Groot N1,微軟的Magma、Figure的Helix、銀河通用的GraspVLA、智元機器人的Go-1基座模型等。
然而,VLA模型并非完美,也存在著自己的困境:
首先是缺乏數據,數據采集難度大、成本高。VLA模型訓練需要大規模且高質量的多模態數據集,包括視覺、語言和動作數據的同步。然而由于沒有足夠多的具身硬件商用,具身智能機器人很難像自動駕駛汽車那樣構建數據飛輪, 通過遙操作的方式采集數據成本高且可擴展性差。加之數據標注工作環節耗時且昂貴,導致模型過于依賴預訓練的專家數據集,難以有效學習復雜任務和環境中的行為——比如谷歌RT-2雖能通過符號理解和推理完成單步任務(如“撿起滅絕的動物”),但在需要多步驟協同的復雜任務(如“準備早餐并清理廚房”)中表現受限。
其次是長期規劃與狀態跟蹤能力欠缺。VLA模型通常由VLM(通常被視為具身智能的“大腦”)和動作模型(通常被視為具身智能的“小腦”)構成,大小腦之間有機連接依賴語言指令直接映射動作,時序依賴性處理不足,缺乏長期記憶機制,導致VLA模型語義跟隨性差,難以處理需多步規劃的任務,在長流程任務中易出現步驟遺漏或邏輯混亂,導致陷入行為停滯或無法正確識別目標對象的現象。
如何解決上述問題?
將VLA模型分層或許是思路之一。
2025年以來,中美兩地的頭部機器人公司都做了同一個動作:將原本的長鏈條端到端模型VLA模型拆開,分成VLM和動作執行兩個模型,相當于把機器人的動作規劃和動作執行分開。比如Physical Intelligence(簡稱Pi)推出了有高低層推理結構的π0.5,Figure AI推出了具有S2(VLM)+S1(運動控制模型)雙系統架構的Helix模型,智元機器人也推出了VLM(多模態大模型) + MoE(混合專家)組成的Villa架構Go-1模型。
具體而言,分層模型利用大語言模型的強大規劃與推理能力,構造出類似人類“快慢腦(快腦為系統1,涉及直覺、情感、習慣和快速決策;慢腦為系統2,涉及邏輯、推理、分析和深思熟慮)”的分層體系——“高層任務規劃器”和“底層動作控制器”。先由高層任務規劃器(慢腦,或VLM)將復雜任務逐級拆解,再由底層控制器(快腦,或動作執行模型)完成具體的精準操作。通過將VLA拆分成VLM和動作執行兩個模型后,VLM模型能學習的數據類型得以大幅擴展,它不再像VLA那樣只能通過“遙操作”來進行模仿學習,而是也能從大量的互聯網視頻中學習人類的操作技巧。
在這種技術路徑下,機器人得以應對更加復雜多樣、長時間跨度的場景和任務,從而真正走向通用智能時代的落地。
2.將Action注入VLA Model
全世界率先提出這種方案的不是大廠和高校,而是一家叫靈初智能的創業公司。
早在2020年學術界系統定義VLA概念之前,靈初團隊便開始嘗試將視覺編碼器與語言指令相結合,通過對比學習與自監督訓練,構建了首個能處理開放式指令的工業機器人系統。其2022年發布的“家務助手”機器人,也能通過攝像頭觀察環境,理解“把碗碟放進洗碗機”的指令,并自主規劃路徑、避開障礙、調整夾具角度。
2024年12月,靈初智能發布了首個基于強化學習的端到端具身模型Psi R0,它包含一個VLM動作規劃模型Psi-P0,以及一個動作控制模型Psi-C0,該模型能在動作規劃中產生思維鏈,并通過監測動作完成狀況重新調整動作;2025年3月,靈初智能發布了升級版的具身模型Psi R0.5,進一步優化了數據訓練效率,僅需兩小時數據即可實現物品和場景的全面泛化。
而在今天,「甲子光年」獨家獲悉,靈初智能發布了其最新的端到端具身VLA模型Psi R1。
Psi R1模型同樣采取了“快慢腦”的分層架構。其中快腦S1專注操作,慢腦S2專注推理規劃。但不同于Pi、Figure等VLA模型,靈初智能的Psi R1模型的慢腦S2在做環境感知的時候,不只輸入了VLM模型中常見的視覺和語言信息,而是連同動作信息(Action Tokenizer)也一同輸入。
這其中,Action模態的輸入內容包含歷史動作序列、實時動作反饋、物理交互數據等。而Action Tokenizer模塊則強化了多模態融合能力:將動作數據(時序、空間維度)與視覺、語言信息深度融合,構建更完整的物理世界表征。快慢腦通過Action Tokenizer隱式連接,端到端訓練,協同完成長程任務的靈巧操作。
通過將Action作為VLA的核心輸入端,靈初智能突破了傳統具身智能系統“單向決策”的局限性,構建了全球首個支持“動作感知-環境反饋-動態決策”全閉環的VLA模型。
Psi R1模型架構,圖源:靈初智能
整體來看,Psi R1模型的上層Planner應用自回歸的Causal VLM架構,負責場景抽象理解、任務規劃決策,經過Action Tokenizer,實現上層視覺—語言—動作三大模態的信息連接和穿透;下層Controller則專注精確控制執行,配合真機強化學習,在大多數靈巧操作任務上表現出人類水平的任意泛化與長程靈巧操作能力。
通過這種方式,Psi R1模型可以結合歷史動作與當前的環境狀態來理解動作的長期影響,建立起了動作與環境變化的因果鏈,增強了上下文理解,解決了傳統VLM因缺乏動作歷史導致的"短視"問題,在長程任務中有效避免了重復試錯和動作誤差積累。
除了將動作信息輸入上層VLM模型,靈初智能Psi R1模型的第二個亮點在于,率先提出了強化學習的通用獎勵函數。
靈初的創始人王啟斌是機器人領域的老兵,在云跡科技和京東機器人都有過從業經歷。和很多用模仿學習做控制算法的公司不同,王啟斌一開始就選擇了在數據效率、泛化性、魯棒性和成本方面更有優勢的強化學習作為訓練方法。
在王啟斌看來,強化學習由于可以做遍歷的搜索,可以在與環境的交互中試出很多人都沒有試過的東西,因此天花板更高,也比模仿學習更加接近“Super Human Intelligence”。
正如前文所提,數據是VLA模型的阿喀琉斯之踵。靈初智能基于強化學習,構建了一套仿真、真機、互聯網一體的數據采集范式,突破了模仿學習的瓶頸,將數據的使用效率提升到極致。
具體而言,靈初智能會先通過遙操作和互聯網收集等方式獲得一個冷啟動的數據集,先輸入進模型進行模仿學習訓練,接著用強化學習訓練靈巧操作技能,然后結合模仿學習和強化學習,對這些場景數據里的物體、燈光、背景等要素隨機化處理,提升模型的泛化能力。經過這樣一輪又一輪的反復迭代,可以大幅提升模型的技能泛化表現,同時提高數據的采集利用效率。
Psi R1模型的數據架構,圖源:靈初智能
在強化學習的范式下,Psi R1模型僅使用人類操作數據就能學習到人類的靈巧操作技能,讓操作技能得以大規模擴展;此外,靈初智能還擁有豐富的Sim2Real經驗,通過實時的動作反饋(如觸覺、力覺數據),模型可以動態調整策略,以應對突發干擾。最終,動作的輸入形成了“感知-決策-執行-反饋”的閉環,有效加速了模型的迭代與技能遷移。
3.更靈巧的靈巧手,更聰明的機器人
除了Psi R1模型,靈初智能此次同步發布的,還有業內唯一自帶深度耦合操作算法的靈巧手PsiBot H1和雙臂輪式機器人PsiBot V1。
其中,靈巧手擁有16個主動自由度,支持精細化抓取、旋轉、按壓等動作,覆蓋捏、抓、按、提、推及復合動作(如轉動、扭動),支持柱狀抓握、球形抓握、多指捏夾等類人手操作,可以實現多物體抓取(夾持范圍1-115mm不等)。同時,靈巧手還集成了多維度觸覺傳感器(覆蓋指尖、掌心),可以實時反饋接觸力信息;通過位置、速度、電壓三模式控制,可以適配不同的操作場景(精密裝配、工業搬運等)。
靈巧手PsiBot H1,圖源:靈初智能
而PsiBot V1人形整機則通過與Psi R1模型的協同,軟硬件耦合展現大小腦能力——擁有泛化抓取、放置、雙手打包操作、使用工具、掃碼、打螺栓等技能組合,在長程任務中表現出色。
人形機器人PsiBot V1,圖源:靈初智能
除了靈巧手和人形機器人,靈初智能還配套發布了全國首個高自由度高度擬人靈巧手數采設備PsiBot DC 1和具身靈巧操作量身定做的數據平臺Psi Data。PsiBot DC 1確保了真機數據的1:1映射采集,Psi Data則在靈初智能建設高質量數據飛輪的過程中起到了至關重要的作用。
靈巧手數采設備PsiBot DC 1,圖源:靈初智能
目前,絕大多數的大模型還停留在網絡上給網友畫畫、聊天,卻不能打破屏幕,走到現實世界里。根本原因是這些大模型克服不了模態鴻溝,無法理解自身的動作,難以和環境動態交互。和環境交互的能力不僅僅是推理智能的體現,更是對具身智能體的根本要求,靈初智能自研的Psi R1模型第一次實現了CoAT(Chain of Action Thought),能夠將動作模態融入大腦思考的一環中,真正實現了具身思考,并與環境進行高質量高速度的交互。
這種能力體現在靈巧手和人形機器人上,是更靈巧的操作技能,和更聰明、更擬人的表達。
搭載了Psi R1模型的靈巧手不僅能夠搭樂高,還能彈鋼琴、使用工具打螺栓,不同靈巧手之間還能進行拋接物體的操作。
PsiBot H1靈巧手搭樂高,視頻來源:靈初智能
PsiBot H1靈巧手使用工具擰螺栓,視頻來源:靈初智能
PsiBot H1靈巧手彈鋼琴,視頻來源:靈初智能
PsiBot H1靈巧手拋接物體,視頻來源:靈初智能
而搭載了Psi R1模型的人形機器人則在動作調整、語音交互和情緒表達方面表現出了驚人的能力:
以打麻將為例,靈初智能的機器人由于VLA的自主判斷能力,能夠優化牌的抓取姿勢,同時合理規劃回合內出牌時間,能夠實現一邊思考,一邊調整的能力。
機器人抓到牌一邊進行思考一邊進行調整動作,圖源:靈初智能
機器人也能夠根據牌局的形式,自助判斷自己是否應該碰杠后,絲滑地完成碰杠的動作。
機器人完成碰杠操作,圖源:靈初智能
當人類需要交互的時候,機器人會進行深入思考,根據自己的手牌和別人的反應來動態響應人類的行為。
機器人深入思考后出牌,圖源:靈初智能
機器人還能夠通過大腦思考調用相應的語音和表情模塊表達出自己的感情;在打麻將的過程中,兩個機器人還能協同操作,共同完成牌局。
機器人在別人碰杠以后能夠立馬改變自己的策略,同時計算出最佳的打法和勝率,圖源:靈初智能
可以看到,通過將動作模態深度融入認知決策,Psi R1模型真正實現了“思考即行動”的閉環,讓機器人從屏幕中的虛擬對話伙伴,進化為能精準操作物理世界、理解環境動態、甚至展現情感表達的智能生命體。
4.聚焦細分場景,All in操作機器人
不同于很多做通用人形機器人的廠商,靈初智能從創業開始就聚專用領域,從零售物流和工業制造場景入手,去做商業化的落地。
在過去20年,王啟斌在黑莓手機擔任過產品經理、在Sonos做過當時新興的智能音箱業務,在云跡科技做過酒店配送機器人,還在京東X Lab做過倉儲和配送機器人,在多個領域積累了深厚的操盤經驗,多次實現了產品從定義、開發、上市再到全球“0-1-N”的產業閉環。
云跡科技和京東的職業履歷,讓王啟斌看到,在機器人真正的商業化落地中,仍存在巨大的需求沒有被滿足,尤其是操作方面的能力。
這也是靈初智能選擇輪式雙臂機器人作為第一款產品的核心原因——零售物流場景大部分的動作是前置倉分揀、零售補貨和1km內的端到端配送,工業場景中70%的價值創造也來自操作環節——在特斯拉超級工廠,工人每天要完成2000次精密部件抓取;在富士康iPhone產線,屏幕貼合的誤差容忍度僅為0.1mm。然而,現在市場上90%的人形機器人都是移動機器人,真正能實現操作閉環的寥寥無幾。
工業場景的柔性生產需求、物流場景的效率提升壓力、消費者場景的擬人化期待,均要求機器人具備高自由度、智能感知與動態交互能力,這些場景對靈活性、人機協作能力、非結構化環境適應性以及任務復雜度的需求也與機器人上半身操作的特性高度契合。于是,“人形機器人必須有一雙媲美人類的手”成為了王啟斌的創業初心,選擇雙臂輪式機器人作為第一款產品也正是出于上述考量。
圍繞“操作機器人”,靈初智能組織了一支高密度的人才團隊:
聯合創始人兼工程負責人柴曉杰是中科院自動化所博士兼助理研究員,擁有超過15年的機器人行業技術積累,是算法、仿真、工程、全棧技術專家,曾任騰訊微信/機器人系統負責人、阿里巴巴ADLab高級算法專家、京東X事業部智能駕駛技術負責人,擁有大規模L4自動駕駛技術落地經驗。
聯合創始人兼強化學習負責人陳源培是北京大學人工智能研究院研究助理,曾任斯坦福李飛飛實驗室的訪問學者,自主研發了完整機器人系統,并攻克具身智能關鍵難題——讓雙臂雙靈巧手在真實環境中協同執行多技能任務。他專注于精細操作研究,實現了機器人搭積木、沖泡咖啡等類人操作,并率先通過強化學習提升了雙臂協同控制能力。
同為強化學習負責人的溫穎博士畢業于倫敦大學學院,現任上海交通大學人工智能學院長聘教軌副教授、博士生導師。他多次獲得頂會最佳論文獎項,并擔任多個國際知名會議/期刊的PC成員或審稿人、深度強化學習與決策大模型專家,在電子游戲和具身連續控制任務上有突出成果,推出了多智能體Transformer模型和多模態決策大模型DB1。
靈初智能還與北京大學成立了北大-靈初智能具身靈巧操作聯合實驗室,由人工智能研究院楊耀東博士擔任聯合實驗室項目負責人開展橫向課題合作,該實驗室首席科學家梁一韜博士則主要負責研究具身智能體長程任務規劃。至此,靈初智能不僅具有深諳產品操盤的業界資深人士,也搭建起了一個被稱為“科學家密度最高”的技術隊伍,努力實現團隊在技術創新與商業落地上的平衡。
目前,搭載了Psi R1模型的機器人已經可以廣泛應用于工業領域的來料倉檢測,成品倉的包裝,以及物流領域的揀選、分播供包,零售領域揀貨,補貨,打包等場景。靈初智能也已經和制造業,商超零售,跨境物流行業的龍頭企業展開合作。同時,靈初智能還在與行業頭部客戶合作驗證方案,推動智能機器人在醫療輔助、高端制造等場景的快速落地。
回顧具身智能的發展歷程,從1957年需要人來操控Atomic Robot a Handy Guy,到1966年笨拙的Shakey,再到今天靈初智能可以彈鋼琴、打麻將的機器人,我們見證了人類對賦予機器"感知-思考-行動"能力的不懈追求。這半個多世紀的旅程,是從單一能力到多模態融合的蛻變,也是從簡單指令執行到復雜環境理解的躍升。
在未來,隨著VLA模型的持續演進和硬件設計的進一步優化,我們有理由期待機器人能夠像人類一樣,在開放環境中自主學習、規劃和執行復雜任務。具身智能的發展將不再局限于特定場景和預設流程,而是邁向真正的通用人工智能。靈巧操作作為機器人最接近人類能力的一環,也將成為連接虛擬智能與物理世界的關鍵橋梁。
(封面圖來源:AI工具生成)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.