出品|搜狐科技
作者|常博碩
編輯|楊 錦
“吃!”“碰!”“胡了!”
前不久,一則機器人與人類同桌打麻將的視頻流傳網絡。在持續30分鐘的自主決策中,機器人除了能夠完成翻牌、摸牌等一系列靈巧的操作,還能根據牌局狀態自主構建出牌策略。
這背后,是靈初智能強化學習算法模型Psi R1,在展示開放場景下機器人處理長程復雜任務的能力。這也是全球首個支持“動作感知-環境反饋-動態決策”全閉環的端到端具身VLA模型。
具身智能的浪潮席卷全球,機器人逐漸從人類科幻的想象走進產業的黎明。從春晚丟手絹到地庫里騎自行車再到上桌打麻將,這個領域里從不缺少激動人心的瞬間。
在一片“秀肌肉”的喧囂中,有一個聲音吸引了我們的注意。“我們不做簡單的、假把式的東西”,靈初智能創始人兼CEO王啟斌近日與搜狐科技對話時表示:“我們就是要用穩定、低價的產品去解決樸實的問題。”
靈初智能創立于2024年,創始人除了有著多年產品操盤經驗的王啟斌,還包括斯坦福大學訪問學者、李飛飛的學生陳源培、以及在機器人及無人駕駛領域有著豐富算法經驗的柴曉杰博士。靈初智能也與北京大學成立了北大-靈初智能具身靈巧操作聯合實驗室,由北京大學人工智能研究院助理教授楊耀東、梁一韜擔任聯合實驗室項目負責人。
在具身智能這場科技浪潮的弄潮兒中,靈初似乎是一個“遲到者”。但王啟斌對此卻持不同看法:“我認為快與慢是相對的。”他表示,靈初早在22年就開始技術布局,同時就VLA模型與靈巧手操作的定位來說,此時入局并不算晚。
作為一位在硬件領域摸爬滾打了多年的“老兵”,王啟斌曾在京東和云跡機器人等公司積累了產業經驗。“硬科技創業潮并不是第一次發生,”他談道,這份沉淀下來的對周期的認識,讓他為靈初選擇了“雙臂輪式機器人”這一務實的產品形態。
他還透露,靈初目前有明確的海外物流客戶并有半年內交付歐美倉庫的計劃。
操作二字說來簡單,卻一直是機器人的技術難點。許多人類輕而易舉完成的動作,對機器人來說卻“難于上青天”。兩年前,具身智能還是VLM(Vision Language Model,視覺語言模型)的時代。VLM讓機器人能夠同時處理和理解視覺和語言,但難以對機器人的物理動作實現直接控制。
隨著人們對機器人賦予更高的期待,除了看得見、聽得懂,我們更希望機器人能夠做得好,VLA就這樣誕生了。VLA(Vison Language Action Model,視覺語言動作模型)不僅可以解析圖像和文本信息,還能通過動作解碼器直接輸出動作路徑,讓機器人實現類人推理和全局理解能力。
王啟斌認為,只有具備長程操作的機制和能力,機器人才能真正做到在半開放的,隨時有動態變化的環境中觀察、決策、判斷、操作最終達到人類想要的結果。
“打麻將也有可能迭代成陪伴型機器人,但本質還是為了告訴大家我們有能力去做開放環境中的長程操作,能夠解決商超、物流中的任務。”
談及資本市場的變化,王啟斌坦言,相比去年,當下投資人對具身智能有了更明確的商業化的期待。
以下為搜狐科技與王啟斌對話實錄(經編輯):
搜狐科技:您能分享下目前公司的團隊規模情況嗎?有擴張的計劃嗎?
王啟斌:現在公司是在80人左右,其中靈初和北大聯合實驗室的實習生大概有30人左右,目前還在增加新人。
搜狐科技:從22年開始具身產業已經開始火熱,您在24年才入局會不會覺得有點晚了?
王啟斌:我覺得快與慢是相對的,靈初的研發22年就開始了。大部分公司都是在23年開始做的,但更多做的是偏簡單的操作。我們的戰略定位是不做簡單的、假把式的東西,所以這個時候入局我覺得不算晚。
搜狐科技:您認為靈巧手主要的難點目前在哪里?
王啟斌:手真正的能力強弱不僅僅是一個硬件指標能衡量的,目前會有幾個維度。第一是從需求層面來說,舉個例子搬重物,實際就是對承載的要求。第二是手的訓練數據怎么來,用什么方法能從手上取得數據,最后是怎么做到量產。
搜狐科技:您之前在京東和云跡機器人的工作經驗,有哪些可以直接遷移到靈初上?
王啟斌:有幾個很重要的要素,第一是融資,去年融資還比較順利。第二是我能組到什么樣的團隊,第三是我們在生態中整合資源的能力。從供應方來看,會有以前的一些供應鏈客戶的資源。
我個人覺得非常有價值的是,大家今天做的是硬科技,這個事情并不是第一次發生。在18年開始我們做的機器人到智駕,大家一開始都有一個很高的預期,中間又對長期效果有些低估。這一輪硬件應該怎么做和公司目前不碰雙足機器人的定位,包括客戶的需求迭代,這其實是我之前做消費電子沉淀下來的對于周期的認識。
搜狐科技:從大模型到具身智能,科學家創業的非常多,您是怎么說服大牛科學家們加入的?
王啟斌:我覺得還是大家想一起做一件非常有價值的事。科學家們非常缺乏像我這樣在工業界待了很多年的人。我在23年就開始找合作伙伴了,最后覺得真正能做手的人才非常稀缺。以楊耀東老師為首的國家團隊本身做的很好,我們聊了小半年最后組建了一個團隊來做這個事。大家對這個事有一個強烈的共同意愿以及合理的利益分配,能夠促成長期穩定的合作。
搜狐科技:靈初為什么要做VLA模型,這個模型提升了機器人什么樣的性能?
王啟斌:Psi R1是對之前模型的迭代,針對的是需要操縱大小腦一起去解決挑戰的環境。機器人依據簡單規則執行單一任務并不能解決現在的問題。如果能做到在半開放的,隨時有動態變化的環境中觀察、決策、判斷、操作再達到我們想要的結果,機器人一定是需要長鏈程操作的機制和能力。
搜狐科技:目前頭部的具身公司例如Figure AI、Physical Intelligence等都在做自己的VLA模型,靈初的Psi R1有什么優勢?
王啟斌:第一是手上的操作,Figure AI手上的操作能力很弱,如何訓練出操作能力很強的手這個挑戰全世界只有極少的團隊能做出來,我們肯定是能做出來的。第二個是整個模態的協同能力,一定是經過長時間的訓練和練習才能做出來。
搜狐科技:目前靈初訓練主要用采集數據還是仿真數據?
王啟斌:這是兩種學習方式。回到數據里,模型更重要的是能不能學出超越人的東西。預訓練我們既有強化也有小部分的模仿,大部分是仿真合成數據也有自己采集的少量真實數據。真機數據一個是成本很高,另一個是天花板太低了,學不出超越人的東西。
搜狐科技:我們訓練機器人打麻將用了多久?目的是什么?
王啟斌:訓了大概一個半月。打麻將本身也可以迭代成陪伴型機器人或者其他有娛樂性的東西,但本質還是為了告訴大家,我們有能力做開放環境中長程的操作,這樣的模型基礎能力能夠解決比如商超、物流中非常長鏈程的任務,同時我們也會進行更多商業化可能的探索。
搜狐科技:從產品上來看,為什么您認為目前輪式機器人已經足夠了?
王啟斌:這個可能說的不完全。我覺得機器人的發展是有幾個階段,第一個階段是在相對標準化的一些地面移動環境里作業,目前我們都還在這個階段。第二個階段是像人,這個階段雙足很重要,因為現實世界有各種各樣的環境。第三個階段是類似于更多的生物體,能在空中飛等。目前靈初做雙臂輪式機器人是因為很大程度上對于我們客戶的應用環境來說,輪式已經足夠了。
搜狐科技:未來有做人形機器人的計劃嗎?
王啟斌:我覺得這個可能要把第一階段走完再去考慮。我們現在還是聚焦在操作上,我們的產品就是要用穩定、低價格的硬件去解決非常樸實的問題。
搜狐科技:靈初是靠什么來達到穩定且低價的呢?
王啟斌:這是一個中國生態的優勢。因為我做了很多年硬件,我很清楚靈初的優勢,我們有很強的算法,也找到了最厲害的供應商來一起做。
搜狐科技:目前靈初產品的目標落地場景是什么樣的?
王啟斌:目前我們處于ToB為主的階段,一個是制造業加工中的一些工序,包括物料的檢驗、搬運、來料檢查包括后面整個包裝這樣的事情。另外一個是大的物流行業,會做揀選、分撥的一些工作。我們目前有非常明確的全球倉庫物流的客戶和直接布置到美國和歐洲倉庫的計劃,應該會在六個月內交付。
搜狐科技:短期內我們有整機機器人量產的計劃嗎?預計產量是多少?
王啟斌:產量其實是根據我們落地的節奏來的,到26年底我們銷售額應該在幾個億。
搜狐科技:目前產品的定價大概在多少?
王啟斌:價格在各地有差別,在海外基本大家接受的是兩年的人工工資,目前機器人售價如果能低于這個崗位24個月的人工費用,就是一個很好的產品。
搜狐科技:很多人會質疑這個行業充斥著資本炒作出的泡沫,您怎么看?
王啟斌:我覺得新技術總是有泡沫的。大家能看到非常多的錢進來,也能看到各種各樣的人,要看清楚自己做的是什么事。
搜狐科技:今年和去年相比,資本市場有什么變化?
王啟斌:頭部的一些基金已經投了一些公司,所以會有更明確的商業化的期待,同時風險投資和產業投資也都在看更有生命力的技術路線。
搜狐科技:宇樹和智元最近似乎有一些IPO的動作,具身智能機器人作為近兩年才火起來的行業,您覺得現在上市,節奏太快了嗎?
王啟斌:上市是一個很大的節點但并不是終點。目前技術迭代快,產品的形態也還有很多爭議,機器人潛在的市場非常大,在生態足夠大的前提下不同的公司就會走不同的路。對于我來說,目前技術的迭代非常快,仍然有很多挑戰在,上不上市不是我個人特別關心的點。
運營編輯 |曹倩審核|孟莎莎
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.